Mesurer et comprendre le biais d’usage des codons : recueil des applications à l’évolution des paralogues et des polyomavirus.

Télécharger le fichier original (Mémoire de fin d’études)

Biais d’usage des codons

De par la dégénérescence du code génétique, on pourrait s’attendre à un usage équivalent des codons synonymes au sein des régions codantes d’un organisme. Mais, au sein d’un génome, d’une région génomique ou d’un gène, l’usage des codons synonymes de chaque acide aminé est systématiquement soumis à un déséquilibre qui, a priori, n’apporte aucun changement dans le phénotype des protéines obtenues [31]. Le Biais d’Usage des Codons (BUC ; en anglais CUB ou encore CUPrefs pour Codon Usage Preferences) se définit comme un usage différentiel des codons synonymes et ce à l’échelle d’un gène, d’une région génomique ou d’un génome en-tier [32, 33] (Figure 1.3 ; Tableau 1.2). À titre d’exemple, le CUB de la phénylalanine du gène bactérien dnaA tend vers une surutilisation du codon UUC par rapport au codon UUU chez Strep-tomyces coelicolor (UUC:UUU avec un ratio de 0.94:0.06), alors que son CUB est plus équilibré chez E. coli (UUC:UUU avec un ratio de 0.57:0.43) (observations personnelles). Il est couram-ment admis que le CUB puise son origine dans deux propriétés non-exclusives. La première, appelée biais mutationnel, correspond aux processus mutationnels façonnant la composition nu-cléotidique d’une région d’intérêt vers un contenu riche en certains nucléotides, modifiant alors les fréquences des codons synonymes des gènes contenus dans ladite région [34–36]. La seconde, dénommée sélection traductionnelle, consiste en la sélection de codons synonymes permettant une meilleure expression du gène, et ce en considération des mécanismes relatifs à la transcrip-tion et à la traduction [37–39]. Ces deux origines du CUB seront débattues au sein de la prochaine section.

État des connaissances sur le biais d’usage des codons

Cela fait environ cinq décennies que le biais d’usage des codons est étudié sous de multiples aspects [41]. Peu de temps après la découverte du mécanisme de traduction, où l’on supposait un usage équivalent des codons synonymes, le séquençage toujours plus important de gènes viraux, bactériens et d’eucaryotes invita rapidement à une prise de conscience d’un déséquilibre quasi-constant des codons synonymes [32, 41, 42]. Plusieurs hypothèses neutralistes – où le CUB est influencé par la composition nucléotidique de la région génomique qui l’entoure – et sélection-nistes – où le CUB est déterminé comme jouant un rôle dans l’expression des gènes – ont vu le jour et continuent d’animer les passions [36, 37, 43, 44]. Au sein de ces discussions, l’un des dogmes les plus disputés est l’effet du CUB sur l’efficacité de la traduction et son influence sur le fonctionnement de la machinerie ribosomale [45, 46]. Au cours de cette section, nous tenterons d’englober les principales hypothèses associées au CUB au sein de différents organismes. Nous attirons l’attention du lecteur sur le terme, parfois controversé, d’« optimisation » des codons qui est couramment utilisé au sein des études sur le CUB. Cette terminologie sous-entend une adhé-rence aux hypothèses sélectionnistes (de manière volontaire ou non), où l’on associe fréquence élevée de certains codons avec un avantage sélectif. Sans imposer un quelconque avis sur le lien entre CUB et traduction, nous utilisons principalement ce terme lorsque celui-ci est employé par les auteurs cités.

The genome hypothesis

En 1980, Grantham et al. ont analysé le CUB d’ensembles de gènes appartenant à diffé-rentes espèces de virus, procaryotes, eucaryotes unicellulaires et multicellulaires animaux [32]. Les résultats obtenus les conduisirent à proposer une hypothèse appelée the genome hypothesis (l’hypothèse du génome), où le CUB est spécifique à chaque organisme et semble soumis à une quelconque sélection. Cette tendance se poursuivrait aux différents niveaux taxonomiques et no-tamment chez les mammifères où une universalité dans le contenu en GC des gènes serait, au sein de cette étude, démontrée [32]. Bien que ces résultats soient aujourd’hui discutables (comme nous le verrons par la suite, H. sapiens possède deux populations de CDS ayant des spécificités en CUB opposées), ils constituent l’un des premiers pas vers une analyse systématique du CUB avec l’idée d’y déterminer des tendances évolutives.

Sélection traductionnelle et disponibilité en ARNt

L’une des hypothèses les plus exploitées de sélection traductionnelle se base sur l’idée d’une association positive entre CUB, disponibilité des ARNt et fidélité et efficacité de la traduction [37, 46, 47]. Comme l’accès des différents ARNt au site A du ribosome est dominé par leurs quantités relatives, les ARNt disponibles en grande quantité ont une probabilité accrue d’être rapidement intégrés au sein du ribosome. Une certaine uniformité des codons synonymes afin qu’ils correspondent aux ARNt fréquents réduirait alors le temps d’attente de la complémentarité codon-anticodon, augmentant d’une part la rapidité de la traduction, mais aussi sa fidélité. Sur ce dernier point, la machinerie ribosomale peut être sujette à des erreurs d’attribution des acides aminés, et la probabilité qu’une erreur survienne augmenterait en fonction de l’attente de l’ARNt complémentaire du codon lu [48]. Il est à noter que selon l’organisme, les populations d’ARNt, et donc leur disponibilité au sein d’une cellule, sont classiquement déterminées par le nombre de copies de gènes associés : plus il y a de copies de gènes d’un ARNt, plus grande sera sa quantité dans le système cellulaire [49]. Une telle mesure est surtout vérifiée chez les procaryotes.
L’une des première mentions de l’importance des ARNt dans la modulation de l’expression des gènes fut émise par Itano en 1965, sans qu’aucune étude ne vienne appuyer cette hypothèse [50]. En 1975, Fiers et al. observèrent un lien entre CUB et expression des gènes chez le bac-tériophage (i.e. virus de bactérie) M52 d’E. coli. La protéine A et la protéine de la capside de ces virus, qui présentent une homologie dans la région 5’ à l’échelle protéique mais pas à celle de l’usage des codons, sont effectivement exprimés à différents niveaux. Supposant une origine fonctionnelle à cette différence, Fiers et al. émirent l’hypothèse que le CUB influencerait l’ex-pression des deux gènes. Néanmoins, ils ne firent aucune mention des populations d’ARNt dans leur étude [41]. Peu de temps après, Efstratiadis et al. firent état d’un usage non-aléatoire des codons de la b-globuline du lapin et établirent enfin un lien avec la disponibilité des différents ARNt iso-accepteurs [42]. Ils émirent tout de même des réserves à ce propos en soulignant la possibilité que les cellules eucaryotes soient capables de maintenir des populations d’ARNt tout au long de leur cycle cellulaire ; la notion de disponibilité des ARNt était donc pour eux désuette chez les eucaryotes [42]. Il faudra attendre les travaux de Post et al. pour voir apparaître un lien concret entre CUB, expression et abondance des ARNt. Ils proposèrent dans un premier temps une hypothèse selon laquelle l’appauvrissement de certains ARNt isoaccepteurs au sein d’E. coli induirait une baisse de la rapidité et de la fidélité de la traduction de certains gènes [45, 46, 51]. En supposant que le contraire était tout aussi valable, ces mêmes auteurs démontrèrent la relation positive entre le CUB des gènes fortement exprimés des protéines r d’E. coli et la disponibilité des différents ARNt isoaccepteurs [46, 52].
Chez les procaryotes et les eucaryotes unicellulaires tels que S. cerevisiae, le lien entre CUB, abondance des ARNt et expression des gènes a été rapidement défini par Ikemura [31, 37] et Bennetzen et Hall [38]. En 1981, Ikemura analysa douze gènes d’E. coli pour lesquels l’expres-sion était positivement corrélée à l’usage des codons et aux populations d’ARNt [37]. Bennetzen et Hall démontrèrent à leur tour l’existence d’un biais d’usage des codons chez deux gènes for-tement exprimés de S. cerevisiae. Sur les 1004 acides aminés qui les composent, 96 % d’entre eux arborent un usage de 25 codons sur les 61 disponibles (ce qui implique un usage dispropor-tionné de certains codons synonymes par rapport à d’autres). En les comparant à quatre autres gènes de levure moins exprimés, ils confirmèrent cette hypothèse et soulignèrent qu’un usage de codons associés à des ARNt rares sur des gènes fortement exprimés pourrait être délétère pour la cellule par épuisement des ARNt en question [38]. Dans un contexte plus général, de nombreuses études portant sur différents procaryotes ont amélioré nos connaissances sur le CUB de ces organismes. Une étude de Sun et al. présente une analyse de 61 génomes complets d’E. coli pour en déterminer le CUB des core genes (en français, les « gènes-coeur » à savoir les gènes partagés par tous les génomes d’un même organisme) et des gènes uniques à chaque gé-nome [53]. Parmi toutes les explications valables quant aux différences de CUB entre les deux ensembles de gènes, Sun et al. proposent une origine évolutive : selon eux, les core genes ont un CUB orienté vers les abondances respectives des ARNt, ce qui n’est pas le cas des gènes plus spécifiques à chaque souche. Une telle différence pourrait s’expliquer par le fait que, au delà de leur expression accrue, l’ensemble des core genes contient des gènes essentiels à la survie d’E. coli. Leur expression doit donc être fidèlement assurée et exempte d’erreurs lors de la traduction [53]. Bien entendu, plusieurs autres facteurs peuvent expliquer une telle différence dans le CUB, telles que la différence de taille des séquences entre les deux catégories de gènes, ou encore des événements de transferts horizontaux [53]. La relation entre CUB et nombre d’ARNt jouerait par ailleurs un rôle prépondérant chez les bactéries ayant un court temps de génération [54]. Il a été en effet démontré par une étude sur les gènes de 102 espèces bactériennes que plus le temps de génération est court, plus le nombre de copies de gènes d’ARNt contenus dans le génome est grand, mais aussi que leur diversité est faible, de manière à ce que la traduction des gènes nécessaires à la croissance des individus (qui posséderaient alors un CUB en accord avec les po-pulations d’ARNt) soit la plus optimisée possible [54]. Les résultats de cette étude vont jusqu’à trouver que les populations d’ARNt sont similaires chez les bactéries ayant un temps de généra-tion court, et ce malgré leur distance phylogénétique. Ce dernier point suggère une universalité dans le CUB et dans l’abondance des ARNt au sein des procaryotes [54].
Chez les organismes eucaryotes multicellulaires, il est plus difficile de mettre en relation ex-pression des gènes, usage des codons et abondance des ARNt dans la cellule. Il a été démontré que le CUB des gènes de l’araignée Parasteatoda tepidariorum varie en fonction de leur niveau d’expression : les gènes fortement exprimés au sein de l’organisme possèdent un taux significa-tivement plus élevé de T3 (T à la troisième paire de base du codon) que les autres gènes [39]. Parmi toutes les hypothèses possibles, Whittle et Extavour font état de la spécificité des popu-lations d’ARNt pour expliquer une telle composition nucléotidique [39]. Chez la mouche du vinaigre Drosophila melanogaster, les mêmes conclusions ont pu être observées, où le CUB des gènes fortement exprimés est cette fois-ci orienté vers une présence accrue de codons enrichis en GC3 (G ou C à la troisième paire de base du codon) [55, 56]. Il est à noter que pour Whittle et Extavour, la différence de CUB entre P. tepidariorum et D. melanogaster pourrait être due à l’apparition de divergences dans les populations d’ARNt au cours de l’évolution des arthropodes [39].
Mais la complexité de ces organismes multicellulaires, et notamment le fait qu’ils arborent différents tissus cellulaires ayant tous une hétérogénéité qualitative et quantitative dans l’expres-sion des gènes, nous force à revoir notre définition du CUB. Il doit être observé à l’échelle du tissu, et non pas de l’organisme entier. Chevallier et Garel observèrent en 1979 un changement de l’équilibre de certains ARNt isoaccepteurs à la fin du stade larvaire chez le bombyx du mûrier Bombyx mori [57]. Ce changement s’opère au niveau des tissus postérieurs et médians de leur glande séricigène, de manière à ce les populations d’ARNt se rapprochent du CUB des gènes de la fibroïne et de la séricine, soulignant ainsi une adaptation fonctionnelle et spatio-temporelle des ARNt au CUB de ces deux gènes fortement exprimés [57]. Sans entrer dans le débat entre hypothèses neutralistes et sélectionnistes, les auteurs de cette étude font état de la possibilité d’un effet mutationnel lié à la forte transcription de ces mêmes gènes (voir phénomène TAMB dans une section suivante) [57]. Pour aller plus loin dans cette démarche, Whittle et al. ont analysé le CUB de quatre tissus du tribolium rouge de la farine Triboleum casteneum, dont ceux de la lignée germinale [58]. Ils y ont découvert qu’en relation avec l’expression des gènes, les tissus de cet insecte possèdent des ensembles de codons « optimaux » quasi-identiques entre les tissus somatiques et de la lignée germinale, mais qui diffèrent lorsque l’on compare les deux types de tissus. De tels résultats pourraient signifier des différences de populations d’ARNt entre les tissus de T. castaneum, en accord avec l’expression tissu-spécifique des gènes [58].
Mais c’est chez les Vertébrés que le bât blesse : chez ces organismes, et en particulier les mammifères, le CUB est fortement impacté par le biais mutationnel [36, 43] (voir sections sui-vantes), et s’il existe un lien entre CUB, expression des gènes et disponibilité des ARNt, celui-ci est bien difficile à cerner. Quelques années après les travaux de Chevallier et Garel, Hastings et Emerson effectuèrent une analyse du CUB de deux ensemble de gènes « spécifiques », a priori, au foie et au muscle squelettique chez différentes espèces de Vertébrés, mais ne tirèrent pas les mêmes conclusions que leurs collègues : selon eux, il n’existe pas de différences significatives entre les gènes spécifiques à chacun de ces deux tissus au travers des Vertébrés, mais plutôt un consortium du CUB au sein des gènes fortement exprimés, marqué par un enrichissement en GC3 propre à la genome hypothesis de Grantham et al. [32, 59]. La majeure partie des études qui ont suivi n’a jamais démontré formellement l’existence d’une sélection traductionnelle des codons synonymes chez les Vertébrés, qui plus est en corrélation avec l’abondance des ARNt. C’est le cas d’une étude récente de Pouyet et al. qui, au détour d’une analyse de l’impact du gBGC (GC-biased gene conversion en anglais ou biais de conversion génique GC-biaisé en français, discuté à la suite de ce rapport) sur le CUB des gènes humains précise l’absence d’un lien entre abondance des ARNt et CUB [43]. Cela dit, certains auteurs tentent toujours d’élucider la question de l’existence d’une sélection traductionnelle chez les Vertébrés : pour Yi et al. le taux de GC3 et l’usage des codons de trois espèces de loches sont étroitement liés à l’expression des gènes fortement exprimés, mais toujours sans que cela ne soit mis en rapport avec l’abon-dance des ARNt [60]. Une hypothèse indiquée dans une étude de Duret et Mouchiroud propose que l’absence de signes de sélection traductionnelle chez H. sapiens pourrait être partiellement expliquée par les différences de taille de population avec d’autres organismes tels que D. mela-nogaster, S. cerevisiae ou encore E. coli : une mutation avantageuse pour une espèce avec une grande population pourrait être de facto neutre au sein d’une population plus petite, où la dérive génétique l’emporte sur la sélection, spécialement si le coefficient de sélection est petit [44].
Comme nous le verrons par la suite, les organismes cellulaires, dont les mammifères, peuvent être soumis à des fluctuations dans l’abondance de leurs ARNt au cours du cycle cellulaires ou sous certaines conditions [61]. De telles observations pourraient alors remettre en question notre interprétation du lien entre CUB, abondance des ARNt et expression des gènes, où la relation entre ces trois variables pourrait être profondément modifiée en fonction de la condition de la cellule.

Effet du CUB sur la stabilité et la maturation des ARNm

Il n’est pas possible d’étudier l’impact du CUB sans évoquer son influence sur la composition nucléotidique des ARNm. Pendant et après la transcription, la composition globale et locale des ARNm induit leur structure et leur maintien, ce qui participe à la régulation de l’expression des gènes [62]. La stabilité d’un ARNm (i.e. sa demi-vie) dépend largement de sa structure secondaire, elle même définie par les possibles interactions de l’ARNm avec lui même.
Chez la levure S. cerevisiae, l’insertion de codons synonymes rares au sein du gène rappor-teur PGK1 peut conduire à une baisse du maintien de l’ARNm correspondant : le ralentissement de l’étape d’élongation induit par le CUB peut favoriser, via l’action de la protéine inhibitrice de la traduction Dhh1, le decapping (décoiffement) de l’ARNm, menant alors à sa dégradation [63]. Un tel phénomène serait associé à la vitesse de la traduction et donc à l’activité des ribosomes en contact avec l’ARNm : si celui-ci possède un nombre important de codons rares, les ribosomes s’accumulent et se bloquent lors de l’étape d’élongation, provoquant alors un ribosome-jam (em-bouteillage de ribosomes) par ribosome stalling (arrêt du ribosome) (Figure 1.4). L’action de la protéine Dhh1 permettrait alors la libération des ribosomes, de manière à ce que la traduction des autres gènes ne soit pas impactée par le ribosome-jam [63]. Mais le contraire est tout aussi valable : lors d’une analyse sur des versions « optimisées » et « désoptimisées » (i.e modifiées pour présenter des codons synonymes fréquents ou rares) du gène HIS3 du même organisme, il a été remarqué que la demi-vie des ARNm était drastiquement augmentée chez les transcrits « optimisés », et ce par le biais d’une augmentation de la vitesse de translocation lors de la phase d’élongation [34]. En comparaison avec la version wild-type (naturelle) du gène HIS3, la version « optimisée » de Presnyak et al. a une demi-vie près de six fois supérieure, alors que la version « désoptimisée » en a une cinq fois moindre. Pour chacun de ces deux exemples, il semblerait que le biais d’usage des codons agisse, par le biais de la modulation de la vitesse de la traduction, comme un régulateur de la stabilité d’un ARNm via une étroite relation entre activité des ribosomes et machinerie de dégradation des ARNm [34].
Selon la structure secondaire d’un ARNm, les étapes d’initiation et d’élongation de la traduc-tion peuvent être modifiées. Par exemple, la région d’initiation de la traduction RBS (Ribosome Binding Site ou site de Fixation du Ribosome en français) du site d’initiation de Shine-Delgarno d’E. coli peut être inaccessible en fonction de sa composition nucléotidique, au point d’empêcher toute traduction du gène [64, 65]. En effet, le contenu en AUGC d’un ARNm peut conduire à la formation de hairpins qui peuvent bloquer l’accès du site de Shine-Delgarno aux ribosomes [65]. Les mêmes conclusions peuvent être tirées quant à l’impact des hairpins sur l’initiation de la traduction chez les eucaryotes : la formation de structures particulières dans la région 5’ d’un ARNm peut conduire à une modulation de l’expression des gènes, comme l’indiquent Tuller et Zur dans leur revue [66]. Il est toutefois indiqué dans ce même article que certains gènes de S. cerevisiae possèdent après le site d’initiation des hairpins avec une forte cohésion. On pourrait penser qu’une telle structure serait délétère pour la traduction du gène, mais il semblerait que cette région favoriserait au contraire l’initiation de la traduction en i) empêchant la formation de hairpins autour du site d’initiation ; ii) favorisant le trafic des ribosomes le long de l’ARNm [66]. Chez les eucaryotes, le site d’inititation est reconnu par la sous-unité 40S du ribosome. Cette sous-unité possède une affinité avec une région dite de Kozak qui permet l’identification du site d’initiation [66, 67]. Selon la composition nucléotidique de la région de Kozak, le site d’initiation peut être plus ou moins bien reconnu par le ribosome, auquel cas Kozak proposa deux grandes explications : i) le ribosome se décale et trouve un autre codon initiateur aux abords du premier et véritable site d’initiation ; ii) le ribosome se détache de l’ARNm et ne synthétise pas la pro-téine [67]. La région de Kozak est très fortement conservée, et ses modifications, bien que rares, peuvent provoquer des afflictions chez H. sapiens : la mutation d’un simple nucléotide dans une position conservée de cette séquence peut amener à une modification de la protéine SOX9 par sé-lection d’un autre codon initiateur que celui d’origine, ce qui peut entraîner des cas de dysplasie campomélique [68].
Chez les eucaryotes, où les ARNm sont soumis à une étape de maturation comprenant un épissage (i.e une coupure de l’ARNm pour en supprimer les introns), l’usage des codons à la frontière entre les exons et les introns jouerait un rôle dans ladite maturation de l’ARNm. D’un point de vue général, ces régions sont composées de codons AT3-riches associés à des contraintes sur les limites des exons [69, 70]. Par exemple, le CUB retrouvé aux abords des exons de la protéine TP53 aide à son épissage par le concert des protéines régulatrices du phénomène [71]. Un bouleversement du CUB dans ces régions pourrait alors empêcher la formation d’ARNm matures par absence d’un épissage alternatif correct.

Variations intragéniques du CUB

Comme nous avons pu le voir précédemment, les variations dans le CUB peuvent, selon l’organisme, influencer la vitesse et la fidélité de la traduction des ARNm [31, 38, 54]. Il existe aussi des variations intragéniques qui peuvent moduler le rythme d’élongation de la traduction tout au long de l’ARNm. Chez certains gènes fortement exprimés de procaryotes et d’eucaryotes, la région suivant le site d’initiation est composée de codons rares (Figure 1.4). L’interprétation la plus habituelle de cette particularité dans le CUB est que cette région, appelée « rampe » et dont la taille varie entre 30 et 50 codons, empêcherait l’apparition d’un ribosome jam et permettrait donc une traduction optimale des gènes (Figure 1.4) [72]. Après cette région « rampe », le CUB du gène s’« optimise » à nouveau pour regagner un usage des codons propre aux gènes fortement exprimés. Il faudrait donc voir la « rampe » de CUB comme une voie d’insertion d’autoroute où les ribosomes démarrent lentement l’élongation de la protéine puis acquièrent une vitesse de pointe où les polyribosomes (i.e. la succession de plusieurs ribosomes sur un même ARNm) ne se gêneront pas [2, 72].
Chez la levure S. cerevisiae, les protéines secrétées par la cellule ainsi que celles de la mem-brane plasmique possèdent des groupements de codons rares à une distance de 30 à 45 codons par rapport aux sites de liaison de la SRP (Signal Recognition Particle en anglais ou particule de reconnaissance du signal en français) [2] [73]. La SRP reconnaît les signaux de sécrétion des pro-
Chapitre 1 – Introduction 21
téines, ou encore les segments transmembranaires des protéines de la membrane dès leur sortie du ribosome. Une fois reconnues par les SRP, les protéines naissantes sont acheminées vers les complexes de translocation des protéines afin d’être déplacées au sein de la cellule. Le groupe de codons rares, qui est à une distance équivalente à la longueur du tunnel de sortie des ribosomes (i.e de la partie intra-ribosomale de la chaîne polypeptidique), aurait été sélectionné pour laisser l’espace et le temps nécessaires à la reconnaissance du site de liaison de la protéine par le SRP, et ce via un ralentissement de l’élongation de la protéine [73].

Variations intergéniques du CUB

La taille d’une séquence pourrait être un facteur explicatif du CUB. Contrairement aux autres exemples donnés ci-dessus, où la rapidité de la traduction est un facteur prédominant dans la sé-lection des codons, le postulat de départ est qu’un CUB « optimisé » sur de longues séquences relèverait d’une stratégie d’économie d’énergie de la cellule [74]. En effet, plus une séquence est longue, plus l’étape d’élongation peut induire des erreurs de traduction délétères pour la pro-téine naissante – comme l’insertion d’acides aminés imprévus ou l’arrêt précoce de la traduction – et donc coûteuses pour la cellule de par l’investissement énergétique dans une protéine non-fonctionnelle. Pour éviter cela, les grandes séquences auraient généralement un CUB riche en codons fréquents. Une étude portant sur les gènes de S. cerevisiae, D. melanogaster et E. coli a mis en évidence une corrélation positive et significative entre l’utilisation de codons fréquents et la longueur des gènes chez la bactérie, mais pas chez les deux eucaryotes [74]. Chez les pro-caryotes, il est donc possible que l’hypothèse émise en début de paragraphe soit valide. Une étude de 1999 de Duret et Mouchiroud confirme ces résultats, où les longs gènes d’Arabidopsis thaliana, Caenorhabditis elegans et D. melanogaster voient leur « optimalité » baisser par rap-port aux gènes courts et ce pour des niveaux d’expression sensiblement similaires [44]. Plusieurs hypothèses de sélection traductionnelle ont été émises et vérifiées au cours de cette étude, sans qu’aucune n’explique véritablement les observations faites sur ces organismes. Moriyama et Po-well proposent tout de même une hypothèse où la taille des séquences est contre-sélectionnée chez les gènes fortement exprimés [74]. Ici, Moriyama et Powell supposent que le mécanisme d’évitement des erreurs lors de la traduction se fait indirectement par une sélection de protéines ayant la même fonction mais dont la taille serait réduite [74]. Mais de tels résultats ne sont pas présents au sein de l’étude de Duret et Mouchiroud, car la taille des séquences ne semble pas corrélée à l’expression des gènes des trois organismes étudiés [44]. Au final, il semblerait que les gènes bactériens soient soumis à une pression de sélection positive des gènes « optimaux » en fonction de la longueur de la séquence, alors que plusieurs facteurs semblent provoquer une tendance inverse chez les eucaryotes [44, 74].
À l’instar des ARNm et des protéines, les populations d’ARNt sont soumises aux fluctua-tions temporelles, spatiales et environnementales d’une cellule. Au cours du cycle cellulaire, d’un stress ou de conditions spécifiques, ces populations peuvent être notablement modifiées et changer ainsi l’expression des gènes [61]. La synthèse des ARNt et leur circulation dans la cellule implique un grand nombre d’étapes de maturation et de trafic cellulaire pouvant toutes être modulées selon le stress induit. En suivant l’hypothèse de sélection traductionnelle, les différentes populations de gènes disposant d’un CUB différentiel peuvent s’optimiser en fonction de la population des ARNt disponibles. Une étude de Torrent et al. s’est focalisée sur l’analyse des populations d’ARNt, d’ARNm et de l’expression des gènes sous trois conditions de stress chez la levure du boulanger. Les gènes fortement exprimés à la suite d’un stress possèdent, dans des conditions normales, des codons associés à des ARNt rares. Sous l’effet d’un stress, les po-pulations d’ARNt varient chez la levure, et les codons rares deviennent « optimisés », ce qui améliore la traduction des gènes de réponse au stress [75]. Chez H. sapiens, les gènes exprimés aux différentes étapes du cycle cellulaire ont un CUB riche en codons rares [76]. Pour être plus précis, ces gènes possèdent par exemple une forte proportion du codon UUU-Phe (qui n’a pas d’ARNt associé chez l’Homme). Or, ces codons peuvent être considérés comme « rares », car l’appariement avec un ARNt near-cognate ne se fait pas aussi efficacement qu’avec un ARNt cognate. Mais dès que la quantité d’ARNt augmente (ce qui est le cas pendant la phase G2 du cycle cellulaire), les codons UUU-Phe sont décodés avec autant d’efficacité que les codons UUC-Phe, car la saturation des ARNt associés permet un meilleur appariement entre codons et ARNt near-cognate [76]. De ce fait, les codons wobble s’« optimisent » selon la phase du cycle cellu-laire. Il est à noter que les gènes exprimés pendant la phase G1 (de croissance cellulaire) sont « optimisés » sur tout le long de leur séquence. Chez ces gènes, il n’existe pas de « rampe » de codons. L’explication la plus satisfaisante est que la population des tous les ARNt est au plus bas lors de cette phase, et qu’il est absolument nécessaire d’exprimer ces gènes [76]. Bien entendu, il est primordial de considérer une sélection traductionnelle chez H. sapiens pour accepter de telles hypothèses.

Table des matières

Mesurer et comprendre le biais d’usage des codons : recueil des applications à l’évolution des paralogues et des polyomavirus.
1 Préface
2 Analyse du biais d’usage des codons
3 Évolution des polyomavirus
1 Introduction
1.1 Transcription, traduction et codons synonymes
1.1.1 Rappels sur les processus de transcription et de traduction
1.1.2 Biais d’usage des codons
1.2 État des connaissances sur le biais d’usage des codons
1.2.1 The genome hypothesis
1.2.2 Sélection traductionnelle et disponibilité en ARNt
1.2.3 Effet du CUB sur la stabilité et la maturation des ARNm
1.2.4 Variations intragéniques du CUB
1.2.5 Variations intergéniques du CUB
1.2.6 Relations inter-codons
1.2.7 Effet du CUB sur le repliement des protéines
1.2.8 Biais mutationnel et gBGC
1.3 Cas particulier du CUB des virus
1.3.1 Définition du virus
1.3.2 Virus et CUB
1.4 Mesure du biais d’usage des codons
1.4.1 Indices du CUB
1.4.2 Outils de mesure du CUB
1.5 Les polyomavirus humains
1.5.1 Généralités
1.5.2 Génome des polyomavirus
1.5.3 Classification et histoire évolutive des polyomavirus
1.5.4 Polyomavirus, infections humaines et aspects cliniques
1.6 Objectifs de la thèse
I Étude du CUB; nouvelles approches mathématiques, informatiques et analytiques.
2 COUSIN, une approche normalisée de la mesure du CUB
2.1 Indice COUSIN
2.2 Programme COUSIN
2.2.1 Architecture COUSIN
2.2.2 Indices de calcul du CUB
2.2.3 Calcul du CUB
2.2.4 Fonctionnalités du programme COUSIN
2.3 Analyse COUSIN
2.3.1 Matériel et méthodes
2.3.2 Résultats
2.4 Conclusion
3 Évolution du CUB et sous-fonctionnalisation chez les gènes paralogues : exemplification par les Polypyrimidine Tract Binding Proteins (PTBP) 77
3.1 Introduction
3.2 Matériel et Méthodes
3.2.1 Construction du jeu de données de séquences
3.2.2 Agrégation des PTBP selon leur CUB
3.2.3 Alignement et analyses phylogénétiques
3.2.4 Analyses statistiques
3.3 Résultats
3.3.1 Les paralogues PTBP des Vertébrés diffèrent dans leur composition nucléotidique
3.3.2 Les paralogues PTBP diffèrent dans leur CUB
3.3.3 Reconstruction phylogénétique des PTBP
3.3.4 Les PTBP1 des mammifères accumulent des substitutions synonymes GC-enrichissantes
3.4 Discussion
II Analyse de l’évolution des Polyomavirus humains et applications au polyomavirus BK dans le cadre de la PVAN
4 Évolution des polyomavirus humains et analyse de leur CUB
4.1 Matériel et Méthodes
4.1.1 Récupération des données nucléotidiques
4.1.2 Analyse du CUB des polyomavirus humains
4.1.3 Alignements et reconstruction phylogénétique des polyomavirus humains et du BKPyV
4.2 Résultats
4.2.1 Phylogénie des polyomavirus humains
4.2.2 Phylogénie du BKPyV
4.2.3 Particularités dans le CUB des polyomavirus humains
4.3 Discussion
5 Analyser les BKPyV et humains au travers de deux pipelines et d’un modèle mathématique
5.1 Introduction
5.2 Pipeline GenoPolys
5.2.1 Architecture et fonctionnement du pipeline
5.2.2 Fonctionnement du pipeline GenoPolys sur des données préliminaires de l’ANR BK-NAB
5.3 Pipeline ViroPhylo
5.3.1 Introduction
5.3.2 Fonctionnement de ViroPhylo
5.3.3 Avantages du pipeline ViroPhylo
5.4 Modélisation de l’évolution intra-hôte du BKPyV dans le cadre d’une PVAN
5.4.1 Introduction
5.4.2 Intégration et améliorations possibles du modèle
5.5 Discussion
6 Conclusion et Perspectives
III Annexes
A Articles publiés ou en cours de soumission
B Annexes Chapitre Un
C Annexes Chapitre Deux 81
Bibliographie
Remerciements