Taux de substitution synonyme et non synonyme

Taux de substitution synonyme et non synonyme

Dans la littérature, deux sortes de mutations sont distinguées : les mutations synonymes et les mutations non synonymes. Les mutations synonymes (ou silencieuses) sont des mutations qui n’induisent pas de changement d’acide aminé, tandis que les mutations non synonymes (non silencieuses) induisent un changement d’acide aminé. Cela est possible à cause de la redondance du code génétique. Par exemple, si la transversion C A se produit en première position du codon GCC, codant une Alanine, alors ce codon sera traduit par une Thréonine, tandis que si elle se produit à la troisième position du codon, l’acide aminé traduit restera l’Alanine. De cette observation, découle deux taux de substitution différents : les taux de substitution synonyme et non synonyme et ils ne peuvent être estimés que sur les régions codantes du génome. Le taux de substitution synonyme (resp. non synonyme) est calculé à partir des seules mutations silencieuses (resp. non silencieuses). Généralement les mutations silencieuses se produisent sur le troisième nucléotide du codon et sont plus fréquentes que les mutations non silencieuses qui elles se produisent généralement sur les deux premiers nucléotides du codon (Gojobori et al, 1994, 1990). Lorsqu’aucun des deux termes (synonyme et non synonyme) n’est employé, le taux de substitution est calculé en comptant toutes les sortes de mutations (silencieuses ou non). Dans ce cas, il peut aussi être estimé sur les régions non codantes du génome. 2.3 Modèles d’horloge moléculaire Il est communément admis que la vitesse d’évolution des séquences moléculaires n’est pas strictement uniforme et constante, mais qu’elle peut varier en fonction du temps (par exemple, lorsqu’une pression de sélection supplémentaire s’exerce sur un virus au moment du début d’un traitement) et/ou des lignées (Li & Tanimura, 1987). Ces variations ne sont pas considérées par le modèle d’horloge moléculaire stricte, mais s’en soustraire complètement est impossible. En effet, l’évolution est un processus complexe et la cause de plusieurs facteurs géographiques, géologiques, biologiques, sociologiques, etc. Imaginer une relation universelle entre la distance évolutive et le temps n’est 46 Évolution du VIH : méthodes, modèles et algorithmes donc pas faisable (Bromham & Penny, 2003). Dans ce but, plusieurs modèles d’horloge moléculaire ont été proposés. Ils peuvent être regroupés en quatre catégories suivant une terminologie introduite par Rambaut (2000). Le modèle Single Rate (SR) est le modèle standard (Figure 10A). Il fait l’hypothèse d’une horloge moléculaire stricte mais les séquences sont supposées être échantillonnées au même temps (séquences isochrones). Sinon les intervalles de temps qui séparent les dates de collecte doivent être négligeables par rapport à l’échelle de temps de l’arbre tout entier. Dans ce modèle, le taux de substitution peut uniquement être estimé à l’aide d’un (ou de plusieurs) point(s) de calibration (Xia & Yang, 2011). Le modèle Single Rate Dated Tips (SRDT) fait toujours l’hypothèse d’une horloge moléculaire stricte, mais les séquences sont maintenant prélevées en des temps distincts (séquences hétérochrones) ; il est alors possible d’estimer le taux de substitution avec la connaissance des dates de collecte (Figure 10B) (Rambaut, 2000). Ce modèle est le plus couramment utilisé pour estimer le taux de substitution par des méthodes de distances. Le modèle Multiple Rates Dated Tips (MRDT) suppose une horloge moléculaire relâchée par l’existence de plusieurs taux de substitution, un pour chaque intervalle de temps défini entre deux dates de prélèvement successives (Figure 10C) (Drummond et al, 2001). Ce modèle admet une approche alternative que nous distinguerons par la notation MRDT alternative (MRDTa). Ce dernier permet à l’utilisateur de choisir ses propres intervalles de temps. Notons toutefois qu’il est impossible d’estimer le taux de substitution lorsque le nombre d’intervalles de temps choisi par l’utilisateur est supérieur au nombre d’intervalles de temps obtenus avec les dates de collecte. De plus, comme les estimations des taux de substitution se font par rapport aux feuilles, il est nécessaire que chaque intervalle de temps contienne au moins une feuille. Donc le nombre maximum d’intervalle de temps est donnée par le nombre de dates de collecte moins un (un temps de collecte doit être utilisé comme référence). Typiquement, ce dernier modèle peut être utilisé pour connaître l’efficacité d’un traitement viral, en comparant sa vitesse évolutive avant le début du traitement et pendant celui-ci (cf. section 2.1). Enfin, le modèle Different Rate (DR) suppose que chaque branche de l’arbre a un taux de substitution propre, ces taux pouvant être corrélés entre eux ou non (Figure 10D) (Rambaut, 2000; Felsenstein, 1981). Ce dernier modèle est le plus réaliste de tous, mais il est excessivement paramétré et insoluble en l’absence de corrélation ou contraintes fortes liant les taux. Les horloges moléculaires locales, c’est-à-dire des horloges moléculaires strictes spécifiques à certaines lignées, associées à une horloge moléculaire stricte globale, sont une variante à ce modèle (Yoder & Yang, 2000).

Méthodes de distances estimant le taux de substitution sous le modèle SRDT

Premières méthodes

Les premières méthodes de distances permettant d’estimer la vitesse d’évolution sont relativement simples et s’appliquent généralement sur un groupe de deux à trois séquences au plus. À notre connaissance, Hahn et al. (1986) sont les premiers à avoir estimé le taux de substitution du VIH-1. Cette estimation est seulement faite à partir de deux séquences provenant d’un même patient, un enfant haïtien vivant en Floride et ayant eu une infection prénatale. Le taux de substitution est estimé par la relation où est la distance évolutive estimée qui sépare les deux séquences, alors calculée sous le modèle JC69 (Jukes & Cantor, 1969), et le temps écoulé depuis la divergence de leur ancêtre commun. Cette méthode a été préalablement décrite par Gojobori et Yokoyama (1985) mais appliquée à Moloney murine sarcoma virus, virus oncogène (pour les souris) de la même famille que le VIH-1. Bien que l’estimation du taux de substitution soit du même ordre de grandeur que celle admise aujourd’hui, plusieurs limites sont à relever. Premièrement, cette méthode suppose que le taux d’évolution est constant, c’est-à-dire que l’estimation du taux de substitution est faite sous l’hypothèse d’une horloge moléculaire stricte (Zuckerkandl & Pauling, 1962), hypothèse admise par de nombreuses autres méthodes, notamment par les méthodes de distances. Deuxièmement, la valeur du paramètre ne peut être connue avec certitude, elle doit donc être estimée. Pour leurs séquences, Hahn et al. (1986) l’avaient estimée variant de une à cinq années. Ils proposaient alors un taux de substitution oscillant entre et substitutions par site et par année sur le gène env et entre et substitutions par site et par année sur le gène gag. Ces estimations sont donc très imprécises, car elles varient dans une fourchette de 1 à 5. Pour contrer le problème dû à l’estimation de l’intervalle de temps entre le moment de divergence des séquences et le moment de collecte de celles-ci, nous devons utiliser des données temporelles connues. Li et al. (1988) proposent d’utiliser les dates de prélèvement des échantillons qui, elles, sont connues avec certitude. Pour les employer, nous devons toutefois utiliser une troisième séquence, servant d’outgroup, afin de mesurer la distance évolutive passée entre deux dates de prélèvement. En effet, le taux de substitution n’est pas égal à la distance évolutive entre deux échantillons divisée par l’intervalle de temps qui sépare leur date de prélèvement (Figure 11) (Drummond et al., 2003). Cela produit une surestimation du taux de substitution, puisque la distance évolutive mesure le nombre de substitutions par site depuis leur divergence de leur ancêtre commun et qui a probablement existé bien avant leur date d’échantillonnage (Figure 11B). Notons que dans le cas où l’une des deux séquences est un ancêtre direct de l’autre, cette formule est exacte (Figure 11A), mais les cas sont rares. L’utilisation d’un outgroup permet donc d’obtenir la distance évolutive entre les deux dates de collecte (Figure 11C). Le choix de l’outgroup ne doit pas être fait au hasard, il doit être le plus proche possible des séquences d’intérêt afin d’obtenir une variance d’estimation faible. Soient trois séquences , et où réfère à l’outgroup. Les séquences et sont respectivement échantillonnées aux temps et , où est plus récent que , noté , et et sont les distances Chapitre 2 49 évolutives estimées (obtenues sous n’importe quel modèle) entre les séquences et , et, et respectivement. Alors le taux de substitution vaut En utilisant plusieurs séquences différentes comme outgroup et comme ingroup, dont notamment celles du jeune haïtien, Li et al. (1988) estiment un taux de substitution moyen à substitutions par site et par année sur le gène env. Avec cette méthode, Gojobori et al. (1994) estiment les taux de substitution synonyme et non synonyme du VIH-1 sur les gènes env et gag. Plusieurs souches y sont comparées et plusieurs estimations du taux de substitution synonyme et non synonyme sont présentées. En conclusion, ils retiennent que les taux de substitution synonyme et non synonyme sont respectivement de et substitutions par site et par année sur gag et respectivement de et substitutions par site et par année sur env. La différence entre les taux de substitution synonyme et non synonyme s’explique par le fait que les contraintes fonctionnelles appliquées sur le premier sont plus faibles que celles appliquées sur le second.

Les régressions linéaires simples

Le modèle de régression linéaire simple cherche à établir une relation linéaire entre une variable explicative et une variable expliquée , c’est-à-dire 50 Évolution du VIH : méthodes, modèles et algorithmes où les coefficients et sont les paramètres inconnus du modèle à estimer à l’aide des observations sur . Le vecteur est le bruit associé au modèle (de moyenne nulle, c’est-à-dire ), qui prend en compte le fait que la relation entre les variables et n’est pratiquement jamais complètement expliquée par une droite. Afin de ne pas considérer cette erreur dans les notations, on note parfois où représente la valeur moyenne de sachant la valeur de . Une régression linéaire peut être représentée par un graphique à deux dimensions sur lequel un nuage de points, de coordonnées , est approximé par une droite qui passe au plus près de ces points. Les coefficients de cette droite sont les paramètres et correspondant au modèle de régression linéaire. Figure 12. Schéma représentant une régression linéaire. Représentation graphique d’une régression linéaire. Chaque point ( , ) est représenté sur un graphique à deux dimensions et la droite qui passe au plus près de ces points est la régression linaire dont les coefficients ( et ) sont les paramètres du modèle. L’estimation du taux de substitution à l’aide d’une régression linéaire ne peut être faite que sous le modèle SRDT, c’est-à-dire avec une horloge moléculaire stricte. Sous ce modèle, la variable Y est associée à la distance évolutive, la variable X au temps et le taux de substitution correspond donc au paramètre . Sachant l’ensemble des points observés (temps, distance) le modèle cherche à établir une relation linéaire d’où découlera l’estimation du taux de substitution. Une des faiblesses des modèles de régression linéaire est qu’ils supposent l’indépendance des observations et donc, dans notre cas, des distances évolutives. Ce qui est faux puisque les séquences partagent une partie de leur histoire évolutive (Drummond et al, 2003a). Ce problème d’indépendance des données survient aussi dans plusieurs autres problèmes d’évolution, comme par Chapitre 2 51 exemple dans les modèles d’évolution moléculaire qui supposent que les sites d’un alignement évoluent de manière indépendante (cf. Chapitre 1) (Morton & Clegg, 1995; Gutell et al, 1994). Les estimations résultant de ces méthodes doivent donc être interprétées avec précaution puisque l’utilisation de méthodes qui incorporent la notion d’indépendance peuvent induire des biais non prédictibles (Drummond et al, 2003a).

Pairwise-Distance

La régression linéaire Pairwise-Distance est introduite par Leitner et Albert (1999) dans le but de tester l’existence d’une horloge moléculaire stricte sur les gènes env et gag du VIH-1. Cette méthode se fonde sur un résultat de la génétique des populations qui dit qu’une population haploïde (resp. diploïde) de taille constante partage un ancêtre commun à générations dans le passé. Donc, deux séquences accumulent en moyenne (resp. ) mutations par site, où est le taux de substitution par site et par génération (Felsenstein, 2007; Rodrigo et al, 2007). Adapter ce résultat dans le cas où deux séquences et sont échantillonnées à des temps différents , c’est-à-dire que est plus récent que , donne la relation linéaire où est l’estimation du taux de substitution, une estimation de la diversité génétique des souches échantillonnées au temps et la distance évolutive estimée entre les séquences et (Figure 13). Ainsi, la régression linéaire des variables et des intervalles de temps d’échantillonnage fournit une estimation du taux de substitution et du paramètre . La faiblesse de cette méthode est qu’elle suppose constante la distance génétique entre chaque paire de séquence prise au même temps, alors que celle-ci peut largement varier. Même si la méthode devient correcte lorsque le nombre de séquences est très important, elle est très largement sous-optimale dans la mesure où elle ignore totalement la phylogénie des séquences étudiées. Avec cette méthode, Leitner et Albert (1999) estiment le taux de substitution sur les gènes gag et env à substitutions par site et par année et à substitutions par site et par année respectivement.

Root-to-tip

Cette méthode de régression linéaire est l’une des plus utilisées parce qu’elle permet d’estimer simultanément le taux de substitution et la date de l’ancêtre commun aux séquences (Drummond et al, 2003a). De ce fait, et contrairement à la régression Pairwise-Distance, cette méthode utilise une phylogénie enracinée des séquences étudiées, puis fait une régression linéaire entre les dates d’échantillonnage de chaque séquence avec la distance estimée qui sé- 52 Évolution du VIH : méthodes, modèles et algorithmes pare la feuille représentant de la racine (obtenue en additionnant les longueurs des branches de l’arbre situées sur le chemin de la feuille jusqu’à la racine). Ainsi, le modèle linéaire (Figure 14) est où et sont des estimations du taux de substitution et de la date de l’ancêtre commun aux séquences. L’intersection avec l’axe des abscisses donne l’estimation de , car, dans ce cas, on a , donc lorsque . Avec cette méthode Korber et al. (2000) ont estimé, sur le gène env, la date de l’ancêtre commun aux souches appartenant au groupe du VIH-1 responsable de la pandémie actuelle (groupe M) à 1931 [1915-1941]. Leur estimation du taux de substitution est de substitutions par site et par année. Sur le gène gag, ils estiment un taux de substitution à [ ; ] substitutions par site et par année et une date de l’ancêtre commun au VIH actuel à 1934 [1869 ; 1950].