Méthodes de distances et maximum de vraisemblance
Propriétés des distances évolutives
Cette partie décrit les propriétés importantes des distances évolutives. Nous verrons dans la suite de ce chapitre comment ces propriétés sont prises en compte dans TRIPLEML. Nous commençons par rappeler que le passage d’un ensemble de séquences de nucléotides à une matrice de distances évolutives se fait au prix d’une perte d’information.
En nous appuyant sur le modèle de Jukes et Cantor, nous soulignons ensuite le lien existant entre les formules analytiques permettant d’estimer les distances évolutives et l’approche par maximum de vraisemblance. Puis nous montrons, sur ce modèle simple, que la fiabilité de l’estimation d’une distance évolutive diminue très rapidement lorsque cette distance augmente.
Perte d’information lors du passage aux distances évolutives
Le calcul de la distance qui sépare deux séquences Si et Sj ne prend pas en compte les autres séquences du jeu de données. Cette distance est simplement déduite du nombre d’apparitions des seize motifs possibles dans le jeu de séquences réduit à l’union de Si et Sj. Il est donc possible que différents jeux de données aient des matrices de distances identiques (Penny 1982). Les méthodes de distances disposent donc de moins d’informations que les méthodes de caractères qui, comme la parcimonie ou le maximum de vraisemblance, utilisent directement les séquences moléculaires.
Cependant, même pour des méthodes de caractères, il existe de nombreux jeux de données pour lesquels l’arbre reconstruit est le même (Olsen 1987). Cette perte d’information lors du passage à la matrice de distances évolutives ne remet donc pas directement en cause l’approche des méthodes de distances.
Néanmoins, cette perte d’information est certainement une des causes principales de l’écart entre les performances des méthodes de distances et celles des méthodes de maximum de vraisemblance (Swofford et al. 1996, p. 446). En effet, cette compression (avec perte) de l’information, permet aux méthodes de distances d’être très rapides mais limite la quantité d’information dont elles disposent et donc la fiabilité des phylogénies qu’elles reconstruisent.
Distances évolutives et maximum de vraisemblance
Nous avons vu dans le second chapitre (§ 2.2.1) qu’il existe, pour certains modèles, des formules analytiques permettant d’estimer la distance évolutive δ qui sépare deux séquences S1 et S2 à partir des différences observées entre ces séquences. Dans le cas général, cette distance peut être estimée en optimisant la vraisemblance du 2- arbre T dont les deux feuilles sont respectivement associées à S1 et S2. La vraisemblance de T s’exprime alors de manière très simple à partir des équations (22) et (24) (pages 51 et 53).