Inférence des interactions entre processus évolutifs
Motivation à développer une nouvelle méthode
Cette section aurait aussi pu ˆetre titrée “Un bref historique de mon doctorat”, tant la construction des outils et méthodes présentés les parties suivante de cette thèse ont évolué et été construits progressivement, en mˆeme temps que sa problématique s’a
La première question
Notre question initiale, au début de cette thèse, était motivée principalement par la considération de deux des exemples cités au cours de cette introduction, les Compensated Pathogenous Deviations et le travail de Dan Weinreich sur les paysages adaptatifs. Au vu de ces exemples, il paraˆıt clair qu’il existe des mécanismes qui contraignent su
La temporalité, chronologie des évènements
Cet outil devait donc ˆetre à mˆeme de discriminer les paires de mutations qui se suivent dans le temps, en autorisant des délais plus ou moins longs, et de fa¸con eNous avons discrétisé notre méthode selon les branches de l’arbre pour se contenter de la résolution “à la branche près”. Ainsi, pour chaque mutation, la position est définie parmi les branches de l’arbre, en laissant de cˆoté la position exacte sur la branche (ou arˆete), ce qui laisse autant de choix que l’arbre a de branches, et non plus une infinité. On voit bien ici le gain en terme de calculs, de mˆeme que l’analogie avec le travail de Julien Dutheil détaillé plus haut. Nous avons aussi pu introduire la notion de temporalité, en distinguant les paires d’évènements ayant lieu sur les mˆemes branches que nous appelons coocurrences, et celles ayant lieu sur des branches distinctes d’une mˆeme lignée que nous nommons chronologies. Cette distinction sur les paires d’évènements est certes largement dépendante de la résolution de l’arbre, et en particulier des longueurs de branches, mais elle permet de facilement abstraire le problème qui nous intéresse et de développer des statistiques
Allons plus loin dans l’abstraction
Nous avons donc décidé de distinguer les cooccurrences des chronologies, qui dépendent de la topologie de l’arbre. L’enjeu est donc de coder la topologie de l’arbre en question – ainsi que ses longueurs de branches – et la position des mutations dans cet arbre, pour pouvoir, à partir de ce formalisme “bas niveau”, développer des statistiques pour estimer la dépendance entre les processus évolutifs sous-jacents à notre problème. Une conséquence directe de ce formalisme est qu’il nous ouvre la porte à des problèmes bien plus larges que ceux abordés initialement. En e↵et, puisque les mutations placées sur l’arbre phylogénétique sont formalisées comme des entiers dans un vecteur, pourquoi se cantonner seulement à ce type d’évènement évolutif ? En pratique, il est strictement équivalent de traiter ainsi des mutations sur une séquence ou le gain ou la perte d’un caractère ou d’une fonction biologique. Plus généralement, ce formalisme nous permet de traiter n’importe quel type d’évènement évolutif, dans la mesure o`u il est discret et o`u ses diverses occurrences peuvent ˆetre replacées sur les branches d’un arbre phylogénétique. Nous dirons donc que nous travaillons non plus sur l’ordre des mutations, mais plus généralement sur des évènements évolutifs
De la construction de statistiques
Evidemment la construction d’un tel formalisme et des statistiques associées n’est pas immédiate, ´ nous avons dˆu tˆatonner avant de pouvoir conclure sur une théorie rigoureuse. La base sur laquelle nous nous sommes appuyés au départ est somme toute assez classique, il s’agit d’étudier des expressions de la forme attendu des z
Méthode non-paramétrique
Introduction et résumé des résultats
Dans ce premier article, nous exposons une méthode non-paramétrique de détection de la coévolution. Les données traitées par cette méthode sont un arbre phylogénétique ainsi que les positions des occurrences de deux évènements évolutifs sur celui-ci. Les évènements en question peuvent donc ˆetre de natures très variées, tant qu’ils sont ponctuels et que l’on peut replacer leurs occurrences sur une phylogénie. Ainsi, nous pouvons appliquer cette méthode à des mutations sur des sites particuliers d’un génome, mais aussi au gain/perte d’un gène ou mˆeme d’une fonction biologique. Pour une paire d’occurrences de chacun des deux évènements considérés, on dira qu’elle forme une cooccurrence si ces elles sont sur une mˆeme branche de l’arbre, et une chronologie si elles sont situées sur deux branches distinctes d’une mˆeme lignée (i.e. d’une mˆeme suite de branches allant de la racine de l’arbre à une de ses branches terminales). La notion de cooccurrences décrit les interactions fortes, puisque les évènements en questions sont proches dans le temps, mais ne permet pas de les ordonner. A contrario, la notion de chronologie décrit des interactions a priori plus modérée, mais pour lesquels nous connaissons l’ordre entre les évènements, puisqu’ils sont situés sur des branches distinctes. D’un point de vue technique, cette méthode traduit la position relative des branches de l’arbre dans di↵érentes matrices S et Id. Nous définissons aussi le vecteur des longueurs de branches et, pour chaque évènement Ei, le vecteur ei décrivant les positions de ses occurrences sur les branches de l’arbre. Ainsi, tout le système considéré est décrit dans un formalisme matriciel, qui nous permet, pour deux évènements évolutifs, d’une part de compter le nombre de cooccurrences (resp. de chronologies) qu’ils forment à l’aide de la formule générale eT 1 Me2, qui a pour valeur le nombre de cooccurrences dans lesquels la paire (E1; E2) est impliquée si M = Id (la matrice identité), et le nombre de chronologies si M = S. Cette mˆeme formule permet aussi de compter à la fois les cooccurrences et les chronologies si M = S + Id. Par la suite, ce formalisme permet de calculer les moments exactes de ces comptages (espérance, variance) sous une hypothèse d’indépendance H0. Sous cette mˆeme hypothèse, nous pouvons calculer analytiquement une p-value associée à ce comptage. Ceci nous permet de rejeter ou non l’hypothèse H0, avec un seuil de confiance a priori (typiquement, 95%). Nous avons testé avec des résultats satisfaisants cette méthode sur des données simulées grˆace à un modèle de coévolution que nous avons développé, et établi des courbes de puissance nous donnant un bon aper¸cu des forces et des limites de la méthode. Enfin, nous avons testé la méthode sur un exemple biologique, en étudiant le lien qui pouvait exister entre (i) la perte du flagelle chez certaines souches d’Escherichia coli et (ii) le passage dans un milieu de vie intracellulaire. Nous avons montré que l’intracellularité précède probablement la perte du flagelle. Cet article a été accepté par Systematic Biology le 21 Janvier 2016.
Liste des abréviations |