Reconnaissances d’amorces mutées en métagénomique détection de nouvelles espèces
Marqueur de biodiversité : la région V4 de la sous-unité 18S de l’ADN ribosomal
L’estimation de la biodiversité d’un échantillon est basée ici sur le gène qui code pour la sous-unité 18S du ribosome, sur la région V4. En effet, cette région possède deux particularités : d’une part, elle contient une portion de séquence qui est extrêmement variable et spécifique à chaque espèce, voire sous-espèce. D’autre part, cette portion de séquence variable est posi tionnée entre deux segments de séquences extrêmement conservés au cours de l’évolution et présents chez toutes les espèces.
Ces séquences conservées servent donc d’amorces universelles dans le cadre de la métagé nomique ciblée : leur relative universalité implique qu’elles peuvent servir d’amorces de PCR pour l’ensemble des espèces eucaryotes unicellulaires présentes dans l’échantillon. La séquence obtenue entre les deux amorces est appelée l’amplicon (cf figure 4.1).
Le gène codant pour la sous-unité 18S du ribosome est long d’environ 1 800 paires de bases, mais le séquençage ne porte que sur la sous-région V4, qui encadre un fragment d’une longueur moyenne d’environ 380 paires de bases. L’amorce universelle forward (V4F) est longue de 20 nucléotides tandis que l’amorce universelle reverse (V4R) est longue de 18 nucléotides.
Carottage du sol Amorces exactes Amorces inexactes Données de séquençage (Reads) Extraction de l’ADN PCR & Séquençage Utilisation d’amorces V4F & V4R Figure 4.2– Workflow d’analyse métagénomique, première partie : obten tion des reads
Workflow standard d’analyse métagénomique
rejet des séquences por tant des amorces mutées Pour estimer la biodiversité d’un échantillon, les biologistes procèdent traditionnellement de la façon suivante (cf figure 4.2 et 4.3) : — Récupération de l’ADN des espèces eucaryotes unicellulaires présent dans l’échantillon — Amplification et séquençage de la sous-région 18S de l’ADN par PCR (utilisation des amorces V4 forward et reverse) — Recherche des amorces dans les reads pour isoler les amplicons.
Rejet des reads qui ne contiennent pas les séquences parfaites des amorces V4F et V4R. — Clustering des amplicons sur un critère de proximité (c’est-à-dire regroupement des amplicons ayant des séquences proches). — Validation des clusters sur un critère quantitatif. Un cluster valide devient un OTU et est considéré comme le marqueur d’une espèce.
Lors de l’étape de séquençage, une fraction des reads obtenus possède des séquences contenant des amorces mutées. Ces séquences sont habituellement rejetées, ce qui conduit potentiellement à une perte d’information sur l’échantillon séquencé. Or, une analyse de la biodiversité cherche à être la plus exhaustive possible dans la détection d’espèces.
Nouveau workflow d’analyse proposé : récupérer les séquences avec des amorces mutées Les objectifs de notre recherche sont d’identifier les amorces mutées dans les reads issus du séquençage pour augmenter le nombre de séquences analysées et de déterminer dans quelle mesure ces séquences supplémentaires apportent de l’information ou du bruit dans l’analyse de l’estimation des espèces présentes.
Il s’agit donc d’ajouter au module « Détection des amorces exactes » (cf figure 4.3) une détection des amorces mutées. Au-delà de cet aspect analytique, notre objectif est aussi de déterminer si le modèle de mutation des amorces proposé par le 78 Chapitre 4. Reconnaissances d’amorces mutées en métagénomique : détection de nouvelles espèces Données de séquençage (Reads) Amorces exactes Amorces inexactes Séquences exploitables Recherche des amorces exactes Séquences rejetées Clustering des données OTU
Figure 4.3– Workflow standard d’analysemétagénomique, deuxième par tie : obtentions des OTUs biologiste peut être amélioré pour être plus exhaustif et précis. 4.2 Données disponibles : amorces V4 et reads 454/Roche et Illumina/MiSeq 4.2.1 Amorces universelles et profil de mutation Les amorces V4F & V4R [SBN+10] : amorce exactes L’amorce V4F est longue de 20 nucléotides et est définie par l’expression régulière suivante : CCAGCA[CG]C[CT]GCGGTAATTCC L’amorce V4R est longue de 18 nucléotides et est définie par l’expression régulière suivante : T[CT][AG]ATCAAGAACGAAAGT
Les nucléotides entre crochets indiquent les différentes alternatives possible à une même position. Le modèle de mutation : amorces mutées En vérifiant la nature des reads rejetés au cours de la détection des amorces V4, Frédéric Mahé a pu constater que de nombreux reads possèdent une version légèrement mutée de l’amorce.
Il a donc établi un profil de mutation à partir des amorces mutées qu’il a constaté de visu : échantillon V4F Recherche regexp X V4F Recherche Logol X Séquences avec V4F V4R Recherche regexp V V X V4R Recherche Logol Séquences avec V4R Rejet des séquences contenant des N V V X V X Étape 1 Étape 2 V : valide X : non valide X Étape 3 Figure 4.4– Nouveau workflow d’analyse métagénomique couplant une recherche des amorces exactes (par expression régulière) à une recherche des amorces mutées (par Logol)
« 2 mutations ou 1 insertion/délétion possible. S’il y a une insertion/délétion, elle doit être interne (ie, ne pas affecter un nucléotide aux extrémités). L’amorce V4F peut être tronquée d’un ou deux nucléotides terminaux, sans que cela ne modifie les contraintes de mutation autorisées. » Le modèle de mutation a été traduit en Logol. Les grammaires Logol qui découlent de ces contraintes sont présentées dans la partie 5.2