Tout le monde sait de nos jours que les organismes vivants sont le résultat de l’expression de leur information génétique, leur ADN. Il est devenu aussi courant de savoir que l’information génétique est contenue dans une longue suite (on dit séquence) de seulement 4 petites molécules, des nucléotides, désignées sous formes des lettres : T (thymine), C (cytosine), A (adénine), G (guanine). On a pris l’habitude de faire l’analogie de cette séquence de 4 lettres avec la séquence des lettres de l’alphabet, et ainsi de comparer l’information génétique à la séquence des 26 lettres (pour le français) alignées dans les pages d’un grand livre. L’information contenue dans ce grand livre fait du sens parce que la séquence des lettres est organisée en mots. Les mots prennent tout leur sens car ils sont organisés en phrases, selon une syntaxe précise ou interviennent également des ponctuations. Il existe donc un code selon lequel la séquence des lettres de l’alphabet fait sens.
L’analogie avec l’information génétique peut être poursuivie. La séquence des nucléotides T, C, A, G forme également des mots, que l’on appelle codons, alignés en phrases, que l’on appelle gènes. De même que les phrases commencent par une majuscule et se terminent par un point, les gènes ont un signal de début et de fin. Comme pour la séquence des lettres de l’alphabet, qui prennent sens lorsque elles sont groupées en mots organisés en phrases, selon un code syntaxique précis, la séquence des nucléotides prend son sens grâce à un code génétique précis.
Il se trouve que le décodage de l’information génétique est bien plus simple que celui de l’information littéraire. Les « mots génétiques », les codons sont toujours et uniquement formés de 3 lettres, et aux dizaines de milliers de mots de la langue française, correspondent en fait au maximum 64 codons, qui représentent toutes les combinaisons possibles des quatre T, C, G, A en groupes de trois. Le sens de ces codons vient du fait qu’ils désignent des acides aminés. Les acides aminés sont des petites molécules (de nature différente des nucléotides) qui s’associent en longues chaines pour former des protéines. Il y a 20 acides aminés différents. Vingt pour 64 codons, c’est dire qu’un même acide aminé peut être désigné par plus d’un codon, on parle de redondance du code. Les protéines sont ainsi le résultat du décodage de l’information contenue dans la séquence d’ADN. A une séquence de codons particulière correspond une séquence d’acides aminés particulière qui définit une protéine particulière. Ainsi, avec un maximum de 64 codons (64 mots), la séquence de ces mots peut correspondre à une infinité de protéines. Il y en a près de 30’000 qui constituent le patrimoine protéique de l’espèce humaine. Les protéines servent de structure à l’organisme vivant et de moteurs des réactions biochimiques qui entretiennent la vie (enzymes)(cf. La protéine).
Le Tableau « Le code génétique » présente les 64 codons du langage génétique et indique leur correspondance avec les acides aminés. Dans ce tableau les codons TAA, TAG et TGA en rouge, ne désignent pas d’acide aminé, mais représentent une ponctuation, un signal de fin de lecture, on parle de codon STOP (cf. ci-dessous). Le codon ATG en vert, en plus de désigner l’acide aminé méthionine, représente dans la grande majorité des cas un signal de début de lecture, comme une majuscule qui désigne le début d’une phrase.
La lecture de ce tableau est plus simple qu’il n’y parait. Un codon comprend trois lettres, en position 1, 2 et 3. La position 1 est indiquée à gauche, la 2 au-dessus et la troisième à droite. Tout en haut à gauche, on commence par le codon TTT, et tout en bas à droite on finit par le codon GGG. En regard de chaque codon figure l’acide aminé qu’il désigne, hormis les 3 codons STOP. On voit que l’acide aminé sérine (Ser) est désigné par 6 codons différents, alors que la méthionine (Met) par un seul ATG, qui est également un codon de départ de lecture.
Munis à ce point des clés du code génétique, venons-en à un exercice de décodage, et prenons, au hasard les quelques 350 premières lettres du génome du SARS-Cov-2 (Fig.1) qui en contient 29’903. Ces lettres sont groupées par 10 et en minuscules par commodité de présentation. En fait, il faut les lire 3 à 3, à la recherche d’un signal de départ de lecture ATG. On en trouve un en position 107-109. L’ayant trouvé, sa position fixe l’ordre dans lequel les lettres suivantes doivent être groupées (on parle de cadre de lecture), et le décodage peut commencer : ATG-CTT-AGT-GCA-CTC-ACC…..etc.
Le décodage de cette séquence permet de déduire qu’elle dirige la synthèse d’une protéine dont la séquence d’acides aminés serait : Met-Leu-Ser-Ala-Leu-Thr-Thr-Gln-Tyr-Asn. A ce point, apparaît, en position 134-136, le codon TAA, un des trois codons qui indique la fin de la lecture. Ainsi, ce cadre de lecture est fermé après la désignation de 9 acides aminés, seulement. C’est comme si une phrase de Proust se terminait après seulement une dizaine de mots. Elle ne ferait pas sens. En génétique, c’est la même chose, si le cadre de lecture n’est pas ouvert pour désigner plusieurs dizaines, des centaines, voire des milliers d’acides aminés (une protéine de taille moyenne en contient environ 500), le système de décodage l’ignore. En fait, si la séquence de nucléotides est organisée au hasard, un des trois codons STOP apparaît à une de fréquence proche de 1/20. Pour ce qui concerne la séquence de SARS-CoV-2, un nouvel ATG est présent en position 266-268 (Fig. 1) qui va se prolonger cette fois jusqu’en position 21’555 (Fig. 2, TAA en position 21’553-21’555), spécifiant un gène de 21’289 lettres (nucléotides) permettant la production d’une protéine de plus de 7’000 acides aminés.
Cette méga protéine va être découpée en plusieurs protéines plus petites qui représentent, entre autres une série de protéases, nécessaires à ce découpage, ainsi que l’enzyme nécessaire à la réplication du génome (cf. Un virus, ça se multiplie comment). Le gène suivant, qui commence à la position 21’563-21’565 (ATG, Fig. 2) est celui qui permet de synthétiser la fameuse protéine S qui forme les spicules sur la surface du virus, une protéine de 1273 acides aminés, dont le gène se termine avec un codon TAA en position 25’382-21’285 (Fig. 3).
Le reste de la séquence va désigner les autres protéines virales qui vont soit faire partie des particules virales, soit participer au détournement des fonctions cellulaires au profit de la multiplication virale, soit intervenir pour tempérer les réponses de défense de l’organisme infecté, permettant au virus de se propager à un nouvel hôte.
Quelques remarques pour terminer.
- En vrai, la séquence qui est lue dans le processus de décodage, n’est pas l’ADN, mais l’ARN dit messager (ARNm, cf. Le génome). L’ARN est également un acide nucléique, mais il se distingue de l’ADN de deux manières. Ses nucléotides sont légèrement différents de ceux qui composent l’ADN par ajout d’un atome d’oxygène, et surtout la thymine de l’ADN est remplacée par l’uridine dans l’ARN. L’ARNm est lui-même produit comme une copie conforme de l’ADN. Donc ATG, devient AUG, TAA devient UAA etc. etc.
- Le SARS-CoV-2 est un virus à ARN. Cela signifie que son génome est directement composé d’ARN, prêt à être décodé en protéines. C’est le privilège de certaines familles de virus, et uniquement des virus, de posséder un génome sous forme d’ARN. Dans le cas des coronavirus, l’ARN génome est même un ARNm. Vous en connaissez d’autres de virus à ARN, le HIV, les virus de la grippe, de la rougeole, de l’hépatite C, le virus Ebola etc. La plupart des programmes informatiques, nécessaires à identifier les cadres de lectures ouverts (les gènes) triturent les génomes sous forme d’ADN.
Maintenant que le code génétique est compris, on va pouvoir aborder la question des mutations et de leurs effets. Mais ce sera pour le retour de vacances…. en Suisse, comme il se doit.