Étude de la fonction de l’histone méthyltransférase SET-2 et de ses interacteurs dans le maintien de la lignée germinale de Caenorhabditis elegans
Analyse de données de séquençage du mutant msh-6
L’expérience d’accumulation de mutations sur 30 générations n’a montré aucune différence dans le nombre et la localisation de polymorphismes nucléotidiques (SNP, Single Nucleotide Polymorphism), d’insertions ou de délétions (InDel) chez les lignées mutantes set-2(bn129) comparées aux lignées hétérozygotes. Dans ces conditions, nous avons questionné la capacité de notre « pipeline » bioinformatique à détecter une accumulation de variants. Pour valider notre approche, j’ai utilisé des données publiées dans la littérature. Au moment de faire cette analyse, plusieurs études avaient déjà utilisé des approches de re-séquençage du génome chez diverses espèces dont C. elegans pour étudier l’accumulation de mutations dans différents contextes (Segovia et al., 2015), notamment chez le double mutant met-2; set-25 chez lequel la méthylation de H3K9 est affectée (Zeller et al., 2016), chez différents mutants des voies de réparation NER et BER de l’ADN (Meier et al., 2014), chez les mutants des polymérases translésionelles (Roerink et al., 2014), chez le mutant de l’orthologue de FANCJ qui est impliquée dans la réparation des Gquadruplex (Kruisselbrink et al., 2008). La plupart n’ont pas montré d’accumulation de variants au cours des générations. Pour l’étude du mutant met-2; set-25, les défauts accumulés relèvent d’une accumulation de copies de séquences répétées (CNV, Copy Number Variation) ou de grands réarrangements. Les mutants des voies du NER et BER accumulent des SNP uniquement après exposition à un agent mutagène. L’étude menée par Roerink et al. a utilisé le mutant msh-6 impliqué dans la voie de réparation des mésappariements comme contrôle positif. Ce mutant accumule un très grand nombre de SNP et de petites insertions et délétions. L’absence de la protéine msh-6 empêche la réparation de bases mésappariées (C-A, ou G-T) et a pour conséquence l’apparition d’une mutation après réplication de l’ADN. J’ai décidé d’utiliser ce jeu de données pour l’analyser avec le pipeline que nous avons développé. Par ailleurs, cette étude utilise le mutant polh-1 qui code la polymérase êta (translésionelle) impliquée dans la réparation de lésion UV. Ce mutant présente autant de mutations que le sauvage, en revanche, la taille des délétions est plus 63 Partie II – Résultats importante (Roerink et al., 2014, Figure 1). Il m’a paru intéressant d’analyser également le mutant polh-1, à la fois comme contrôle interne (le nombre de variants doit être similaire au sauvage) et pour savoir si notre pipeline est capable de détecter ce type de différence.
Étapes du Pipeline d’analyse des séquences
De manière générale, l’analyse de variants se fait suivant des grandes étapes qui sont similaires pour toutes les analyses (Doitsidou et al., 2016). La première étape consiste à réaliser un nettoyage des séquences, cette étape est importante pour la recherche de variants. Elle permet de retirer les séquences adaptatrices encore présentes et d’éliminer les bases de mauvaise qualité. La deuxième consiste à aligner les séquences sur le génome de référence et la dernière étape à appeler les variants et à les filtrer suivant différents critères selon le type d’expérience. Certaines sousétapes peuvent varier d’une analyse à l’autre, de même, différents outils d’analyse sont disponibles pour une même étape. C’est le cas de l’alignement où il existe un grand nombre d’aligneurs : Bowtie2, BWAmem, STAR entre autres. Chacun des outils a sa spécificité, BWA est plus adapté à l’alignement de longues séquences, STAR est adapté à l’alignement des données de RNAseq. L’analyse que nous avons réalisée sur les données des lignées set-2 et que j’ai appliquée aux données de Roerink et al., est présentée Figure 24 (Matériel et Méthodes). Brièvement, une analyse de contrôle qualité est réalisée et les séquences sont nettoyées en fonction. Les séquences sont alignées sur le génome de référence puis sont filtrées suivant des paramètres de qualité. Une étape de réalignement autour des insertions et délétions a été réalisée. Les variants sont découverts et filtrés : les variants présents dans la première génération (F1) sont retirés, ainsi que les variants présents dans plusieurs échantillons. Les variants sont également filtrés sur leur couverture et la qualité.
Difficultés rencontrées
Les technologies pour générer les librairies diffèrent entre le sauvage et les mutants Au cours de l’analyse de ce jeu de données, j’ai été confrontée à plusieurs difficultés. En effet, les librairies des deux réplicas sauvages (N2) ont été générées avec la technologie Nextera, tandis que les librairies des mutants (polh-1 et msh-6) ont été générées différemment par la technologie Truseq. L’utilisation de ces deux protocoles est visible dans les rapports qualités, par la contamination en adaptateurs de séquences différentes, spécifiques de chaque technique. Ces deux technologies diffèrent principalement dans la casse de l’ADN. La technologie de tagmentation (Illumina Nextera) utilise la transposase Tn5 qui coupe de manière aléatoire l’ADN (Steiniger et al., 2006). Dans le même temps cette enzyme ligue des adaptateurs aux fragments d’ADN (Adey et al., 2010). La technologie Truseq fragmente l’ADN de façon mécanique par ultrasons puis les séquences adaptatrices sont liguées. Les séquences adaptatrices pour chacune des deux techniques sont différentes. Faible qualité des séquences pour les mutants La qualité des séquences du sauvage est très bonne, la qualité des bases le long des séquences affiche un score de qualité supérieure à 30 (sur une échelle de 0 à 40) (Figure 25 A). À l’inverse, la qualité le long des séquences sens des échantillons polh-1 et msh-6 est faible (Figure 25 B), de plus des bases « N » indéterminées par le séquenceur sont présentes et constituent une deuxième difficulté (données non montrées). Ces deux éléments indiquent un problème au moment du séquençage, de la préparation de la librairie, ou au moment du remplissage/chargement de la Flow Cell (plaque en verre et acrylamide sur laquelle viennent s’attacher les fragments d’ADN). Le graphique de qualité moyenne des séquences en fonction de leur position sur la Flow Cell indique que les séquences de plus faible qualité sont regroupées et persistent sur plusieurs cycles (données non montrées). Ceci semble indiquer un problème de lecture souvent causé par la présence d’une bulle ou d’une poussière es paramètres de nettoyage que nous avons utilisés pour les données set-2 ne sont pas utilisables pour ce jeu de données, car pour le sauvage, la librairie diffère et les séquences adaptatrices à retirer ne sont pas les mêmes. Il faut donc utiliser les séquences spécifiques à cette librairie. Pour les mutants polh-1 et msh-6 la faible qualité en milieu de séquence nécessite des paramètres adaptés. L’enjeu de ce nettoyage est de conserver un maximum de séquences de bonne qualité. J’ai examiné différentes stratégies de nettoyage des séquences. Finalement, j’ai éliminé la première et dernière base de toutes les séquences qui sont de bonne qualité. En effet, j’ai remarqué que les bases d’excellente qualité aux extrémités des séquences masquent les bases internes de plus faible qualité. Les séquences sauvages ont été nettoyées comme indiqué dans la partie « Matériels et Méthodes ». Rétrospectivement, il aurait été plus judicieux d’utiliser le même protocole de nettoyage pour toutes les données, par exemple en retirant à la fois les séquences adaptatrices Nextera et Truseq pour tous les échantillons. La suite du pipeline est la même pour tous les échantillons, et je n’ai rencontré aucune difficulté dans l’alignement ou l’appel des variants. L’étape de soustraction des variants trouvés dans la génération F1 n’a pas pu être réalisée, car la première génération n’a pas été séquencée. 67 Figure 25| Qualité des bases le long des séquences Exemple de diagramme en boite de la qualité des bases le long de la séquence. Les bases de bonne qualité affichent un score entre 40 et 28. les bases de qualité moyenne sont situées entre 28 et 20, et de mauvaise qualité entre 20 et 0. (A) diagramme obtenu pour les séquences d’une lignée sauvage (N2). (B) diagramme obtenu pour les séquences d’une lignée mutante msh-6 (identique pour les lignées mutantes pour polh-1). La version d’encodage est Sanger / Illumina 1.9. Score de qualité Score de qualité des bases A N2 (sauvage) Position dans la séquence (pb) Score de qualité des bases Score de qualité Partie II – Résultats
Résultats et conclusions
J’ai appliqué les filtres des variants sur les données de Roerink et al. Nous avons préféré filtrer sur la qualité des variants en retirant les variants d’une qualité inférieure à 10. De leur côté, Roerink et al. ont préféré retirer les variants avec une fréquence inférieure à 80 %. Ceci est plus strict, car les variants à l’état hétérozygote (fréquence de 50 %) sont retirés, alors que notre méthode permet de les conserver. Il m’a semblé également intéressant d’utiliser les filtres sur la fréquence des variants sur nos données (ainsi que sur les données de Roerink et al. en tant que condition contrôle). Les résultats obtenus en utilisant un filtre sur la qualité montrent une grande quantité de variants (SNP et petits InDels) dans le mutant msh-6 comparé au sauvage et à polh-1 (Figure 26 A). La catégorie majoritaire de variants sont les SNPs pour le mutant msh-6. Concernant le mutant polh-1, on n’observe pas de différence avec le sauvage pour les trois catégories de mutations. L’utilisation du filtre sur la qualité n’a pas révélé de différence entre les mutants set-2 homozygote et hétérozygote (set-2/+) (Figure 26 B et Figure 5 du manuscrit). En utilisant le filtre sur la fréquence, on obtient des résultats similaires avec ceux déjà publiés (Roerink et al., 2014), soit 20,2 SNPs par génération pour le mutant msh-6 (Figure 26 C). Aucune différence n’est constatée entre le sauvage et le mutant polh-1 comme montré par Roerink et al. Pour les données d’accumulation de mutations du mutant set-2, l’utilisation du filtre sur la fréquence ne révèle pas de différence entre les lignées homozygotes et hétérozygotes (Figure 26 D). À noter que la catégorie majoritaire de variants sont les SNPs pour le mutant msh-6 en utilisant notre méthode (Figure 26 A). En revanche elle est minoritaire avec la méthode de Roerink et al. (Figure 26 C). Ceci indique qu’un très grand nombre de SNPs sont à l’état hétérozygote, et que notre méthode permet leur détection. Ces résultats nous permettent de valider notre méthode d’analyse : elle permet bien la détection d’accumulation de mutations. De plus, ces résultats confirment également l’absence de différence entre les lignées set-2 et set-2/+ en ce qui concerne les SNPS et InDels. L’ensemble des données pour chaque lignée avant et après filtrage est présenté en Annexe 1.
Index des figures |