Bagage de phylogénie moléculaire

Télécharger le fichier original (Mémoire de fin d’études)

Taux de substitution synonyme et non synonyme

Dans la littérature, deux sortes de mutations sont distinguées : les mutations synonymes et les mutations non synonymes. Les mutations synonymes (ou silencieuses) sont des mutations qui n’induisent pas de changement d’acide aminé, tandis que les mutations non synonymes (non silen-cieuses) induisent un changement d’acide aminé. Cela est possible à cause de la redondance du code génétique. Par exemple, si la transversion C A se produit en première position du codon GCC, co-dant une Alanine, alors ce codon sera traduit par une Thréonine, tandis que si elle se produit à la troisième position du codon, l’acide aminé traduit restera l’Alanine. De cette observation, découle deux taux de substitution différents : les taux de substitution synonyme et non synonyme et ils ne peuvent être estimés que sur les régions codantes du génome. Le taux de substitution synonyme (resp. non synonyme) est calculé à partir des seules mutations silencieuses (resp. non silencieuses). Généralement les mutations silencieuses se produisent sur le troisième nucléotide du codon et sont plus fréquentes que les mutations non silencieuses qui elles se produisent généralement sur les deux premiers nucléotides du codon (Gojobori et al, 1994, 1990). Lorsqu’aucun des deux termes (syno-nyme et non synonyme) n’est employé, le taux de substitution est calculé en comptant toutes les sortes de mutations (silencieuses ou non). Dans ce cas, il peut aussi être estimé sur les régions non codantes du génome.

Modèles d’horloge moléculaire

Il est communément admis que la vitesse d’évolution des séquences moléculaires n’est pas stric-tement uniforme et constante, mais qu’elle peut varier en fonction du temps (par exemple, lors-qu’une pression de sélection supplémentaire s’exerce sur un virus au moment du début d’un traite-ment) et/ou des lignées (Li & Tanimura, 1987). Ces variations ne sont pas considérées par le modèle d’horloge moléculaire stricte, mais s’en soustraire complètement est impossible. En effet, l’évolution est un processus complexe et la cause de plusieurs facteurs géographiques, géologiques, biologiques, sociologiques, etc. Imaginer une relation universelle entre la distance évolutive et le temps n’est donc pas faisable (Bromham & Penny, 2003). Dans ce but, plusieurs modèles d’horloge moléculaire ont été proposés. Ils peuvent être regroupés en quatre catégories suivant une terminologie intro-duite par Rambaut (2000).
Le modèle Single Rate (SR) est le modèle standard (Figure 10A). Il fait l’hypothèse d’une horloge moléculaire stricte mais les séquences sont supposées être échantillonnées au même temps (sé-quences isochrones). Sinon les intervalles de temps qui séparent les dates de collecte doivent être négligeables par rapport à l’échelle de temps de l’arbre tout entier. Dans ce modèle, le taux de subs-titution peut uniquement être estimé à l’aide d’un (ou de plusieurs) point(s) de calibration (Xia & Yang, 2011).
Le modèle Single Rate Dated Tips (SRDT) fait toujours l’hypothèse d’une horloge moléculaire stricte, mais les séquences sont maintenant prélevées en des temps distincts (séquences hétéro-chrones) ; il est alors possible d’estimer le taux de substitution avec la connaissance des dates de collecte (Figure 10B) (Rambaut, 2000). Ce modèle est le plus couramment utilisé pour estimer le taux de substitution par des méthodes de distances.
Le modèle Multiple Rates Dated Tips (MRDT) suppose une horloge moléculaire relâchée par l’exis-tence de plusieurs taux de substitution, un pour chaque intervalle de temps défini entre deux dates de prélèvement successives (Figure 10C) (Drummond et al, 2001). Ce modèle admet une approche alternative que nous distinguerons par la notation MRDT alternative (MRDTa). Ce dernier permet à l’utilisateur de choisir ses propres intervalles de temps. Notons toutefois qu’il est impossible d’estimer le taux de substitution lorsque le nombre d’intervalles de temps choisi par l’utilisateur est supérieur au nombre d’intervalles de temps obtenus avec les dates de collecte. De plus, comme les estimations des taux de substitution se font par rapport aux feuilles, il est nécessaire que chaque intervalle de temps contienne au moins une feuille. Donc le nombre maximum d’intervalle de temps est donnée par le nombre de dates de collecte moins un (un temps de collecte doit être utilisé comme référence). Typiquement, ce dernier modèle peut être utilisé pour connaître l’efficacité d’un traitement viral, en comparant sa vitesse évolutive avant le début du traitement et pendant celui-ci (cf. section 2.1).
Enfin, le modèle Different Rate (DR) suppose que chaque branche de l’arbre a un taux de substitu-tion propre, ces taux pouvant être corrélés entre eux ou non (Figure 10D) (Rambaut, 2000; Felsens-tein, 1981). Ce dernier modèle est le plus réaliste de tous, mais il est excessivement paramétré et insoluble en l’absence de corrélation ou contraintes fortes liant les taux. Les horloges moléculaires locales, c’est-à-dire des horloges moléculaires strictes spécifiques à certaines lignées, associées à une horloge moléculaire stricte globale, sont une variante à ce modèle (Yoder & Yang, 2000).
La figure A montre le cas d’une phylogénie sous les contraintes du modèle SR (horloge moléculaire stricte et séquences isochrones). Cette phylogénie est ultramétrique, c’est-à-dire que toutes les séquences sont à égale distance de la racine. La figure B montre une phylogénie sous le modèle SRDT (horloge moléculaire stricte et séquences hétérochrones). La figure C une phylogénie sous le modèle MRDT (un taux de substitution par intervalle de temps entre dates de collecte successives et séquences hétérochrones) et la figure D une phylogénie sous le modèle DR (séquences hétérochrones avec un taux de substitution par branche ; dans cette figure l’écart à l’horloge reste faible).

Méthodes de distances estimant le taux de substitution sous le modèle SRDT

Premières méthodes

Les premières méthodes de distances permettant d’estimer la vitesse d’évolution sont relative-ment simples et s’appliquent généralement sur un groupe de deux à trois séquences au plus. À notre connaissance, Hahn et al. (1986) sont les premiers à avoir estimé le taux de substitution du VIH-1. Cette estimation est seulement faite à partir de deux séquences provenant d’un même patient, un enfant haïtien vivant en Floride et ayant eu une infection prénatale. Le taux de substitution est estimé par la relation où est la distance évolutive estimée qui sépare les deux séquences, alors calculée sous le modèle JC69 (Jukes & Cantor, 1969), et le temps écoulé depuis la divergence de leur ancêtre commun. Cette méthode a été préalablement décrite par Gojobori et Yokoyama (1985) mais appliquée à Mo-loney murine sarcoma virus, virus oncogène (pour les souris) de la même famille que le VIH-1. Bien que l’estimation du taux de substitution soit du même ordre de grandeur que celle admise au-jourd’hui, plusieurs limites sont à relever. Premièrement, cette méthode suppose que le taux d’évolution est constant, c’est-à-dire que l’estimation du taux de substitution est faite sous l’hypothèse d’une horloge moléculaire stricte (Zuckerkandl & Pauling, 1962), hypothèse admise par de nombreuses autres méthodes, notamment par les méthodes de distances. Deuxièmement, la valeur du paramètre ne peut être connue avec certitude, elle doit donc être estimée. Pour leurs séquences, Hahn et al. (1986) l’avaient estimée variant de une à cinq années. Ils proposaient alors un taux de substitution oscillant entre et substitutions par site et par année sur le gène env et entre et substitutions par site et par année sur le gène gag. Ces estimations sont donc très imprécises, car elles varient dans une fourchette de 1 à 5.
Pour contrer le problème dû à l’estimation de l’intervalle de temps entre le moment de diver-gence des séquences et le moment de collecte de celles-ci, nous devons utiliser des données tempo-relles connues. Li et al. (1988) proposent d’utiliser les dates de prélèvement des échantillons qui, elles, sont connues avec certitude. Pour les employer, nous devons toutefois utiliser une troisième séquence, servant d’outgroup, afin de mesurer la distance évolutive passée entre deux dates de pré-lèvement. En effet, le taux de substitution n’est pas égal à la distance évolutive entre deux échantil-lons divisée par l’intervalle de temps qui sépare leur date de prélèvement (Figure 11) (Drummond et al., 2003). Cela produit une surestimation du taux de substitution, puisque la distance évolutive me-sure le nombre de substitutions par site depuis leur divergence de leur ancêtre commun et qui a probablement existé bien avant leur date d’échantillonnage (Figure 11B). Notons que dans le cas où l’une des deux séquences est un ancêtre direct de l’autre, cette formule est exacte (Figure 11A), mais les cas sont rares.
L’utilisation d’un outgroup permet donc d’obtenir la distance évolutive entre les deux dates de collecte (Figure 11C). Le choix de l’outgroup ne doit pas être fait au hasard, il doit être le plus proche possible des séquences d’intérêt afin d’obtenir une variance d’estimation faible. Soient trois sé-quences , et où réfère à l’outgroup. Les séquences et sont respectivement échantillonnées aux temps et , où est plus récent que , noté , et et sont les distances évolutives estimées (obtenues sous n’importe quel modèle) entre les séquences et , et, et respectivement. Alors le taux de substitution vaut En utilisant plusieurs séquences différentes comme outgroup et comme ingroup, dont notamment celles du jeune haïtien, Li et al. (1988) estiment un taux de substitution moyen à substitutions par site et par année sur le gène env. Avec cette méthode, Gojobori et al. (1994) estiment les taux de substitution synonyme et non synonyme du VIH-1 sur les gènes env et gag. Plusieurs souches y sont comparées et plusieurs estimations du taux de substitution synonyme et non synonyme sont présentées. En conclusion, ils retiennent que les taux de substitution synonyme et non synonyme sont respectivement de et substitutions par site et par année sur gag et respectivement de et substitutions par site et par année sur env. La différence entre les taux de substitution synonyme et non synonyme s’explique par le fait que les con-traintes fonctionnelles appliquées sur le premier sont plus faibles que celles appliquées sur le second.
Schéma montrant la relation entre la distance évolutive et l’intervalle de temps qui sépare deux dates d’échantillonnage. Lorsqu’une souche est l’ancêtre commun d’une autre (figure A), la distance évolutive est proportionnelle au temps écoulé entre les deux dates de prélèvement et une estimation du taux de substitution est donnée en divisant la distance par l’intervalle de temps , où est le temps le plus récent. Malheureusement, cela n’est pas le cas lorsqu’aucune des deux séquences n’est un ancêtre de l’autre (figure B). Dans ce cas, il est nécessaire d’utiliser un outgroup afin d’obtenir la distance évolutive entre les deux temps de collecte et (figure C). Ainsi, le taux de substitution peut être estimé sur l’intervalle de temps entre et par Adaptation de Drummond et al. (2003a).
Bien que ces deux approches offrent des estimations cohérentes avec celles admises aujourd’hui (même ordre de grandeur), elles s’orientent vers une grande erreur type et ne peuvent être appli-quées qu’à de petits jeux de données (Suzuki et al, 2000).

Les régressions linéaires simples

Le modèle de régression linéaire simple cherche à établir une relation linéaire entre une variable explicative et une variable expliquée , c’est-à-dire où les coefficients et sont les paramètres inconnus du modèle à estimer à l’aide des observations sur . Le vecteur est le bruit associé au modèle (de moyenne nulle, c’est-à-dire ), qui prend en compte le fait que la relation entre les variables et n’est pratiquement jamais complètement expliquée par une droite. Afin de ne pas considérer cette erreur dans les nota-tions, on note parfois où représente la valeur moyenne de sachant la valeur de . Une régression linéaire peut être représentée par un graphique à deux dimensions sur lequel un nuage de points, de coordonnées , est approximé par une droite qui passe au plus près de ces points. Les coefficients de cette droite sont les paramètres et correspondant au modèle de régression linéaire.
Représentation graphique d’une régression linéaire. Chaque point ( , ) est représenté sur un graphique à deux dimen-sions et la droite qui passe au plus près de ces points est la régression linaire dont les coefficients ( et ) sont les para-mètres du modèle.
L’estimation du taux de substitution à l’aide d’une régression linéaire ne peut être faite que sous le modèle SRDT, c’est-à-dire avec une horloge moléculaire stricte. Sous ce modèle, la variable Y est associée à la distance évolutive, la variable X au temps et le taux de substitution correspond donc au paramètre . Sachant l’ensemble des points observés (temps, distance) le modèle cherche à établir une relation linéaire d’où découlera l’estimation du taux de substitution.
Une des faiblesses des modèles de régression linéaire est qu’ils supposent l’indépendance des ob-
servations et donc, dans notre cas, des distances évolutives. Ce qui est faux puisque les sé-quences partagent une partie de leur histoire évolutive (Drummond et al, 2003a). Ce problème d’indépendance des données survient aussi dans plusieurs autres problèmes d’évolution, comme par exemple dans les modèles d’évolution moléculaire qui supposent que les sites d’un alignement évo-luent de manière indépendante (cf. Chapitre 1) (Morton & Clegg, 1995; Gutell et al, 1994). Les esti-mations résultant de ces méthodes doivent donc être interprétées avec précaution puisque l’utilisation de méthodes qui incorporent la notion d’indépendance peuvent induire des biais non prédictibles (Drummond et al, 2003a).

Pairwise-Distance

La régression linéaire Pairwise-Distance est introduite par Leitner et Albert (1999) dans le but de tester l’existence d’une horloge moléculaire stricte sur les gènes env et gag du VIH-1. Cette méthode se fonde sur un résultat de la génétique des populations qui dit qu’une population haploïde (resp.diploïde) de taille constante partage un ancêtre commun à générations dans le passé. Donc, deux séquences accumulent en moyenne (resp. ) mutations par site, où est le taux de substitution par site et par génération (Felsenstein, 2007; Rodrigo et al, 2007). Adapter ce résultat dans le cas où deux séquences et sont échantillonnées à des temps différents , c’est-à-dire que est plus récent que , donne la relation linéaire où est l’estimation du taux de substitution, une estimation de la diversité génétique des souches échantillonnées au temps et la distance évolutive estimée entre les séquences et (Figure 13). Ainsi, la régression linéaire des variables et des intervalles de temps d’échantillonnage fournit une estimation du taux de substitution et du paramètre . La faiblesse de cette méthode est qu’elle suppose constante la distance génétique entre chaque paire de séquence prise au même temps, alors que celle-ci peut largement varier. Même si la méthode devient correcte lorsque le nombre de séquences est très important, elle est très largement sous-optimale dans la mesure où elle ignore totalement la phylogénie des séquences étudiées. Avec cette méthode, Leitner et Albert (1999) estiment le taux de substitution sur les gènes gag et env à substitutions par site et par année et à substitutions par site et par année respectivement.

Table des matières

Introduction
Chapitre 1 Bagage de phylogénie moléculaire
1.1 Introduction
1.2 Bases de données biologiques
1.3 L’alignement, une étape indispensable
1.4 Modèles d’évolution moléculaire
1.5 Méthodes d’inférence phylogénétique
1.5.1 Arbre phylogénétique
1.5.2 Méthodes de distances
1.5.2.1 Les méthodes agglomératives
1.5.2.2 Les méthodes optimisant un critère
1.5.3 Méthodes de caractères
1.5.4 Fiabilité des phylogénies
1.6 Reconstruire l’évolution de caractères
Chapitre 2 Méthodes de distances pour estimer le taux de substitution à partir d’un ensemble de séquences hétérochrones, application au virus de l’immunodéficience humaine (VI
2.1 Introduction
2.2 Taux de substitution synonyme et non synonyme
2.3 Modèles d’horloge moléculaire
2.4 Méthodes de distances estimant le taux de substitution sous le modèle SRDT
2.4.1 Premières méthodes
2.4.2 Les régressions linéaires simples
2.4.2.1 Pairwise-Distance
2.4.2.2 Root-to-tip
2.4.3 sUPGMA
2.4.4 TREBLE
2.4.5 TreeRate
2.4.6 Méthode de Langley-Fitch
2.5 Quelques méthodes pleinement probabilistes
2.6 Conclusion
Chapitre 3 Diversité génétique, épidémiologie moléculaire et origine du virus de l’immunodéficience humaine (VIH), l’agent responsable du SIDA
3.1 Introduction
3.2 Virus de l’immunodéficience humaine (VIH)
3.2.1 La classification taxonomique des VIH
3.2.2 Phylogénie et diversité génétique des VIH
3.3 Distribution géographique des différents variants génétiques du VIH
3.3.1 Les VIH de type 1
3.3.1.1 Le groupe M
3.3.1.2 Le groupe O
3.3.1.3 Le groupe N
3.3.1.4 Le groupe P
3.3.2 Les VIH de type 2
3.4 L’origine africaine des VIH
3.5 Causes de la diversité génétique
3.6 Conséquences de cette diversité génétique
3.7 Facteurs sociologiques de la diffusion mondiale du VIH
Chapitre 4 Ultrametric Least Squares : une méthode de distances rapide et précise pour estimer le taux de substitution à partir d’un ensemble de séquences hétérochrones
4.1 Introduction
4.2 Description de la méthode
4.2.1 Minimisation du critère d’ultramétricité sur un triplet
4.2.2 Minimisation du critère d’ultramétricité sur plusieurs triplets
4.2.3 Détermination de la valeur de pondération optimale
4.2.4 Limites algorithmiques et solutions proposées
4.2.4.1 Conservation des coefficients de chaque morceau de parabole
4.2.4.2 Parcours de chaque morceau du critère et estimation des minima locaux
4.2.4.3 Structure de données associée aux frontières
4.2.5 Description de l’algorithme
4.2.6 Utilisation de la méthode dans le cas de taux variant par intervalle de temps
4.2.7 Utilisation de la méthode dans le cas de taux variant par lignage
4.2.8 Mise en oeuvre
4.3 Confrontation aux autres méthodes de distances et à celle de référence (BEAST)
4.3.1 Confrontation sur jeux de données simulées
4.3.1.1 Construction des jeux de données simulées
4.3.1.2 Performance en précision d’estimation
4.3.1.3 Performance en temps de calcul
4.3.2 Application au sous-type C du VIH-1
4.4 Conclusion
Chapitre 5 Origine géographique et temporelle du sous-type C du VIH-1 au Sénégal
5.1 Introduction
5.2 Préparation des données
5.3 Résultats
5.4 Conclusion
Article publié dans le journal PLoS One
Chapitre 6 Histoire épidémiologique du sous-type C du VIH-1 dans la pandémie mondiale
6.1 Introduction
6.2 Préparation des données
6.2.1 Conception de l’alignement
6.2.2 Inférence phylogénétique
6.2.3 Reconstruction des états ancestraux
6.2.4 Mesure des taux de migrations entre pays
6.2.5 Recherche d’évènements fondateurs à l’aide de PhyloType
6.2.5.1 Présentation de PhyloType
6.2.5.2 Association de certains pays afin de favoriser l’apparition de phylotypes
6.2.5.3 Paramétrage de PhyloType
6.3 Résultats
6.3.1 Séquences pol du VIH-1C incluses dans l’étude
6.3.2 Phylogénie des séquences pol du VIH-1C
6.3.3 Étude des flux migratoires du VIH-1C
6.3.4 Recherche des chaînes de transmission majeures du VIH-1C avec PhyloType
6.3.4.1 Associations d’annotations pour l’analyse avec PhyloType
6.3.4.2 Analyse des chaînes de transmission du VIH-1C avec PhyloType
6.4 Conclusion
Conclusion
Bibliographie
Liste des figures
Liste des tableaux
Annexe A Matériels supplémentaires à l’étude du Chapitre 6

Télécharger le rapport complet

Télécharger aussi :

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *