Les modifications post-traductionnelles des histones et les enzymes qui les catalysent

Étude de la fonction de l’histone méthyltransférase SET-2 et de ses interacteurs dans le maintien de la lignée germinale de Caenorhabditis elegans

Analyse de données de séquençage du mutant msh-6

L’expérience d’accumulation de mutations sur 30 générations n’a montré aucune différence dans le nombre et la localisation de polymorphismes nucléotidiques (SNP, Single Nucleotide Polymorphism), d’insertions ou de délétions (InDel) chez les lignées mutantes set-2(bn129) comparées aux lignées hétérozygotes. Dans ces conditions, nous avons questionné la capacité de notre « pipeline » bioinformatique à détecter une accumulation de variants. Pour valider notre approche, j’ai utilisé des données publiées dans la littérature. Au moment de faire cette analyse, plusieurs études avaient déjà utilisé des approches de re-séquençage du génome chez diverses espèces dont C. elegans pour étudier l’accumulation de mutations dans différents contextes (Segovia et al., 2015), notamment chez le double mutant met-2; set-25 chez lequel la méthylation de H3K9 est affectée (Zeller et al., 2016), chez différents mutants des voies de réparation NER et BER de l’ADN (Meier et al., 2014), chez les mutants des polymérases translésionelles (Roerink et al., 2014), chez le mutant de l’orthologue de FANCJ qui est impliquée dans la réparation des Gquadruplex (Kruisselbrink et al., 2008). La plupart n’ont pas montré d’accumulation de variants au cours des générations. Pour l’étude du mutant met-2; set-25, les défauts accumulés relèvent d’une accumulation de copies de séquences répétées (CNV, Copy Number Variation) ou de grands réarrangements. Les mutants des voies du NER et BER accumulent des SNP uniquement après exposition à un agent mutagène. L’étude menée par Roerink et al. a utilisé le mutant msh-6 impliqué dans la voie de réparation des mésappariements comme contrôle positif. Ce mutant accumule un très grand nombre de SNP et de petites insertions et délétions. L’absence de la protéine msh-6 empêche la réparation de bases mésappariées (C-A, ou G-T) et a pour conséquence l’apparition d’une mutation après réplication de l’ADN. J’ai décidé d’utiliser ce jeu de données pour l’analyser avec le pipeline que nous avons développé. Par ailleurs, cette étude utilise le mutant polh-1 qui code la polymérase êta (translésionelle) impliquée dans la réparation de lésion UV. Ce mutant présente autant de mutations que le sauvage, en revanche, la taille des délétions est plus 63 Partie II – Résultats importante (Roerink et al., 2014, Figure 1). Il m’a paru intéressant d’analyser également le mutant polh-1, à la fois comme contrôle interne (le nombre de variants doit être similaire au sauvage) et pour savoir si notre pipeline est capable de détecter ce type de différence. 

Étapes du Pipeline d’analyse des séquences

De manière générale, l’analyse de variants se fait suivant des grandes étapes qui sont similaires pour toutes les analyses (Doitsidou et al., 2016). La première étape consiste à réaliser un nettoyage des séquences, cette étape est importante pour la recherche de variants. Elle permet de retirer les séquences adaptatrices encore présentes et d’éliminer les bases de mauvaise qualité. La deuxième consiste à aligner les séquences sur le génome de référence et la dernière étape à appeler les variants et à les filtrer suivant différents critères selon le type d’expérience. Certaines sousétapes peuvent varier d’une analyse à l’autre, de même, différents outils d’analyse sont disponibles pour une même étape. C’est le cas de l’alignement où il existe un grand nombre d’aligneurs : Bowtie2, BWAmem, STAR entre autres. Chacun des outils a sa spécificité, BWA est plus adapté à l’alignement de longues séquences, STAR est adapté à l’alignement des données de RNAseq. L’analyse que nous avons réalisée sur les données des lignées set-2 et que j’ai appliquée aux données de Roerink et al., est présentée Figure 24 (Matériel et Méthodes). Brièvement, une analyse de contrôle qualité est réalisée et les séquences sont nettoyées en fonction. Les séquences sont alignées sur le génome de référence puis sont filtrées suivant des paramètres de qualité. Une étape de réalignement autour des insertions et délétions a été réalisée. Les variants sont découverts et filtrés : les variants présents dans la première génération (F1) sont retirés, ainsi que les variants présents dans plusieurs échantillons. Les variants sont également filtrés sur leur couverture et la qualité.

Difficultés rencontrées

Les technologies pour générer les librairies diffèrent entre le sauvage et les mutants Au cours de l’analyse de ce jeu de données, j’ai été confrontée à plusieurs difficultés. En effet, les librairies des deux réplicas sauvages (N2) ont été générées avec la technologie Nextera, tandis que les librairies des mutants (polh-1 et msh-6) ont été générées différemment par la technologie Truseq. L’utilisation de ces deux protocoles est visible dans les rapports qualités, par la contamination en adaptateurs de séquences différentes, spécifiques de chaque technique. Ces deux technologies diffèrent principalement dans la casse de l’ADN. La technologie de tagmentation (Illumina Nextera) utilise la transposase Tn5 qui coupe de manière aléatoire l’ADN (Steiniger et al., 2006). Dans le même temps cette enzyme ligue des adaptateurs aux fragments d’ADN (Adey et al., 2010). La technologie Truseq fragmente l’ADN de façon mécanique par ultrasons puis les séquences adaptatrices sont liguées. Les séquences adaptatrices pour chacune des deux techniques sont différentes. Faible qualité des séquences pour les mutants La qualité des séquences du sauvage est très bonne, la qualité des bases le long des séquences affiche un score de qualité supérieure à 30 (sur une échelle de 0 à 40) (Figure 25 A). À l’inverse, la qualité le long des séquences sens des échantillons polh-1 et msh-6 est faible (Figure 25 B), de plus des bases « N » indéterminées par le séquenceur sont présentes et constituent une deuxième difficulté (données non montrées). Ces deux éléments indiquent un problème au moment du séquençage, de la préparation de la librairie, ou au moment du remplissage/chargement de la Flow Cell (plaque en verre et acrylamide sur laquelle viennent s’attacher les fragments d’ADN). Le graphique de qualité moyenne des séquences en fonction de leur position sur la Flow Cell indique que les séquences de plus faible qualité sont regroupées et persistent sur plusieurs cycles (données non montrées). Ceci semble indiquer un problème de lecture souvent causé par la présence d’une bulle ou d’une poussière es paramètres de nettoyage que nous avons utilisés pour les données set-2 ne sont pas utilisables pour ce jeu de données, car pour le sauvage, la librairie diffère et les séquences adaptatrices à retirer ne sont pas les mêmes. Il faut donc utiliser les séquences spécifiques à cette librairie. Pour les mutants polh-1 et msh-6 la faible qualité en milieu de séquence nécessite des paramètres adaptés. L’enjeu de ce nettoyage est de conserver un maximum de séquences de bonne qualité. J’ai examiné différentes stratégies de nettoyage des séquences. Finalement, j’ai éliminé la première et dernière base de toutes les séquences qui sont de bonne qualité. En effet, j’ai remarqué que les bases d’excellente qualité aux extrémités des séquences masquent les bases internes de plus faible qualité. Les séquences sauvages ont été nettoyées comme indiqué dans la partie « Matériels et Méthodes ». Rétrospectivement, il aurait été plus judicieux d’utiliser le même protocole de nettoyage pour toutes les données, par exemple en retirant à la fois les séquences adaptatrices Nextera et Truseq pour tous les échantillons. La suite du pipeline est la même pour tous les échantillons, et je n’ai rencontré aucune difficulté dans l’alignement ou l’appel des variants. L’étape de soustraction des variants trouvés dans la génération F1 n’a pas pu être réalisée, car la première génération n’a pas été séquencée. 67 Figure 25| Qualité des bases le long des séquences Exemple de diagramme en boite de la qualité des bases le long de la séquence. Les bases de bonne qualité affichent un score entre 40 et 28. les bases de qualité moyenne sont situées entre 28 et 20, et de mauvaise qualité entre 20 et 0. (A) diagramme obtenu pour les séquences d’une lignée sauvage (N2). (B) diagramme obtenu pour les séquences d’une lignée mutante msh-6 (identique pour les lignées mutantes pour polh-1). La version d’encodage est Sanger / Illumina 1.9. Score de qualité Score de qualité des bases A N2 (sauvage)  Position dans la séquence (pb) Score de qualité des bases Score de qualité Partie II – Résultats

Résultats et conclusions

J’ai appliqué les filtres des variants sur les données de Roerink et al. Nous avons préféré filtrer sur la qualité des variants en retirant les variants d’une qualité inférieure à 10. De leur côté, Roerink et al. ont préféré retirer les variants avec une fréquence inférieure à 80 %. Ceci est plus strict, car les variants à l’état hétérozygote (fréquence de 50 %) sont retirés, alors que notre méthode permet de les conserver. Il m’a semblé également intéressant d’utiliser les filtres sur la fréquence des variants sur nos données (ainsi que sur les données de Roerink et al. en tant que condition contrôle). Les résultats obtenus en utilisant un filtre sur la qualité montrent une grande quantité de variants (SNP et petits InDels) dans le mutant msh-6 comparé au sauvage et à polh-1 (Figure 26 A). La catégorie majoritaire de variants sont les SNPs pour le mutant msh-6. Concernant le mutant polh-1, on n’observe pas de différence avec le sauvage pour les trois catégories de mutations. L’utilisation du filtre sur la qualité n’a pas révélé de différence entre les mutants set-2 homozygote et hétérozygote (set-2/+) (Figure 26 B et Figure 5 du manuscrit). En utilisant le filtre sur la fréquence, on obtient des résultats similaires avec ceux déjà publiés (Roerink et al., 2014), soit 20,2 SNPs par génération pour le mutant msh-6 (Figure 26 C). Aucune différence n’est constatée entre le sauvage et le mutant polh-1 comme montré par Roerink et al. Pour les données d’accumulation de mutations du mutant set-2, l’utilisation du filtre sur la fréquence ne révèle pas de différence entre les lignées homozygotes et hétérozygotes (Figure 26 D). À noter que la catégorie majoritaire de variants sont les SNPs pour le mutant msh-6 en utilisant notre méthode (Figure 26 A). En revanche elle est minoritaire avec la méthode de Roerink et al. (Figure 26 C). Ceci indique qu’un très grand nombre de SNPs sont à l’état hétérozygote, et que notre méthode permet leur détection. Ces résultats nous permettent de valider notre méthode d’analyse : elle permet bien la détection d’accumulation de mutations. De plus, ces résultats confirment également l’absence de différence entre les lignées set-2 et set-2/+ en ce qui concerne les SNPS et InDels. L’ensemble des données pour chaque lignée avant et après filtrage est présenté en Annexe 1.

Table des matières

Index des figures
Index des tableaux
Partie I – Introduction
1 Organisation de la chromatine à différents niveaux
1.1 Architecture des chromosomes en interphase
1.1.1 Nucléosomes et fibre chromatinienne
1.1.2 Les interactions locales de la chromatine
1.1.3 L’organisation de la chromatine au niveau intermédiaire
1.1.4 L’organisation de la chromatine à large échelle
1.2 Architecture des chromosomes en mitose
1.2.1 Formation des chromosomes mitotiques
1.2.2 Les complexes Condensine I et II et leurs propriétés
1.2.3 La Topoisomérase II
2 Les modifications post-traductionnelles des histones et les enzymes qui les catalysent
2.1 Généralités
2.2 La méthylation et les enzymes HMT/HDM
2.3 L’Acétylation et les enzymes HAT/HDAC
2.4 Établissement de l’euchromatine et de l’hétérochromatine
2.5 Coopération fonctionnelle des marques d’histones
2.6 Rôle de H3K4me2/3 dans l’expression génique et dans la réparation de l’ADN
2.6.1 Rôle de H3K4me2/3 dans l’expression génique
2.6.2 Rôle de H3K4me2/3 dans la réparation de l’ADN
3 La lignée germinale de C.elegans comme modèle d’étude des régulations épigénétiques
3.1 Généralités sur C. elegans
3.2 Généralités sur la lignée germinale
3.2.1 Prolifération
3.2.2 La région mitotique
3.2.3 Structure des chromosomes en méiose
3.3 Organisation de la chromatine chez C. elegans
3.3.1 Organisation des chromosomes
3.3.2 Conservation et répartition des marques d’histones
3.3.3 Les complexes enzymatiques responsables de la méthylation de H3K
3.4 Régulation épigénétique dans la lignée germinale
3.4.1 La répression du chromosome X dans la lignée germinale
3.4.2 l’inactivation des régulateurs épigénétiques est associée à une perte progressive de l’immortalité de la lignée germinale
4 Projet de thèse
Partie II – Résultats
1 Rôle des histones methyltransférases SET-2 et MET-1 dans la stabilité du génome
1.1 Contexte des travaux de thèse
1.2 Contribution au manuscrit
1.3 Manuscrit
1.4 Analyse de données de séquençage du mutant msh-6
1.4.1 Étapes du Pipeline d’analyse des séquences
1.4.2 Difficultés rencontrées
1.4.3 Résultats et conclusions
1.5 Rôle de met-1 dans la stabilité du génome
1.5.1 Contexte des travaux de thèse
1.5.2 Caractérisation moléculaire de la mutation n4337
1.5.3 Caractérisation moléculaire de la mutation tm38
1.5.4 Analyse comparative des deux mutations
2 Étude du rôle de set-2 dans l’organisation de la chromatine de la lignée germinale
2.1 Contexte des travaux de thèse
2.2 Aggravation du phénotype associé à la perte du complexe Condensine II en l’absence de set-2
2.3 Un allèle hypomorphe de hcp-6 montre la même interaction génétique
2.3.1 Le double mutant hcp-6; set-2 présente une augmentation de l’apoptose
2.4 L’interaction génétique entre set-2 et Condensine II semble être liée à la diminution de la marque
H3K4me
2.5 Interaction génétique entre top-2 et set-2 dans la lignée germinale
2.6 La compaction des noyaux en pachytène est réduite chez le mutant cfp-1 et set-2
2.7 La fréquence des crossing-overs n’est pas altérée en l’absence de set-2
3 Étude du rôle de CFP-1 et SIN-3 dans la lignée germinale
3.1 Contexte des travaux de thèse
3.2 Rôle de set-2, cfp-1 et sin-3 dans l’homéostasie de la lignée germinale1
3.3 Le mutant cfp-1 présente des défauts de spermatogenèse
3.4 Rôle transcriptionnel de set-2, cfp-1 et sin-3 dans la lignée germinale
3.4.1 En absence de set-2 et sin-3, les transcrits des ovocytes sont surexprimés dans la partie distale de la lignée germinale
3.4.2 Biais de la répartition des gènes différentiellement exprimés entre autosomes et chromosome X pour les mutants cfp-1 et sin-3
3.4.3 SIN-3 réprime l’expression des mêmes gènes que MES/PRC2 sur le chromosome X
3.4.4 Les lignées germinales des mutants sin-3 ont une taille réduite
Partie III – Discussion et perspectives
1 Rôle de set-2 dans l’organisation de la chromatine dans la lignée germinale
1.1 Modèle fonctionnel pour expliquer l’interaction génétique entre set-2 et Condensine II
1.2 set-2 a un effet suppresseur de la létalité embryonnaire du mutant hcp-6(mr)
1.3 Spécificité de l’interaction génétique entre Condensine II et set-2
1.4 set-2 interagit génétiquement avec top-2
1.5 set-2 et cfp-1 participent à la compaction des chromosomes en pachytène
2 CFP-1 joue un rôle au cours de la spermatogenèse
3 Coopération fonctionnelle entre SET-2, CFP-1 et SIN-3 dans la lignée germinale
4 Régulation du chromosome X chez les mutants set-2, cfp-1 et sin-3
4.1 Phénotypes de sin-3 et régulation du chromosome X
4.2 Comment SIN-3 et CFP-1 agissent sur la répression du chromosome X ?
4.3 Études de la localisation de CFP-1 et SIN-3 dans la lignée germinale : effet direct ou indirect sur le
chromosome X
4.4 Effet de cfp-1 et sin-3 sur les marques d’histone dans la lignée germinale
Conclusion générale
Partie IV – Annexe
1 Nombre de variants par lignée pour les expériences d’accumulation de mutations
2 Étude phénotypique du mutant met-1(n4337)
2.1 L’arrêt du cycle cellulaire du mutant met-1(n4337) est normale après irradiatio
2.2 Apoptose après irradiation du mutant met-1(n4337)
3 Étude de la dérégulation des petits ARN chez les mutants set-2 et met-1(tm38)
3.1 Les ARN piwi dans la lignée germinale de C. elegans
3.2 La voie des ARN 21U est dérégulée chez le mutant met-1 (tm38) mais pas chez le mutant set2(bn129)
3.3 La voie des ARN 22G n’est pas dérégulée chez les mutants met-1(tm38) et set-2(bn129)
3.4 Conclusion
4 Description des allèles set-2(bn129), set-2(ok952), cfp-1(tm6369) et sin-3(tm1276)
5 Sauvetage de la stérilité de cfp-1 dpy-13 par croisement avec des mâles sauvages
6 Résultats de séquençage de l’allèle hcp-6(mr)
7 Niveau de H3K4me3 dans la lignée germinale des mutants set-2(bn129) et set2(ok952)
8 Données de Flim FRET pour le mutant set-2(bn129)
9 Modèle de la recombinaison homologue1
Partie V – Matériels et méthodes
1 Table des souches1
2 Culture et méthodes usuelles
2.1 Milieu de culture et maintien
2.2 Synchronisation des vers
2.3 Croisement
2.4 Génotypage par PCR1
2.5 Observations au microscope
2.5.1 Observations des vers vivants
2.5.2 Marquage de l’ADN par DAPI
3 Matériels et méthodes du chapitre 1
3.1 Étude des transcrits met-1 (tm38) et met-1 (n4337)
3.2 Analyse bioinformatique des données msh-6 et polh-1
3.3 Estimation du nombre de descendants
3.4 Sensibilité aux irradiations au stade L
3.5 Essai de réversion unc-93 et unc-22::Tc1
3.6 Mortal germline
4 Matériels et méthodes du chapitre
4.1 ARN interférence
4.1.1 Génotypage des bactéries
4.1.2 préparation des boites et culture ARNi
4.2 Acridine Orange (AO)
4.3 Comptage des défauts de lignée germinale du mutant top-2
4.4 Détermination de la fréquence de recombinaison
4.5 Estimation du nombre de descendants et de la létalité embryonnaire
4.6 Étude des niveaux de transcrit kle-2 et capg-1 par RT qPCR
4.6.1 Extraction d’ARN
4.6.2 RT et qPCR
4.7 DAPI sur gonades disséquées
4.8 Flim Fret
4.9 Arrêt du développement embryonnaire
5 Matériels et méthodes du chapitre
5.1 Extraction d’ARN de gonades isolées
5.2 Analyse bioinformatique
5.3 Analyse des termes d’onthologie
5.4 Établissement des listes de gènes dérégulés chez les mutants mes-2 et mes-4
5.5 Immunomarquage de SIN-
5.6 Spermatogenèse
5.7 Estimation du nombre de descendants et de la létalité embryonnaire
6 Matériels et méthodes des Annexes
6.1 Apoptose et Arrêt du cycle cellulaire
6.2 Étude de la dérégulation des petits ARN
6.3 Séquençage du gène hcp-64
6.4 Immunomarquage de H3K4me
7 Ressources
Bibliographie

projet fin d'etudeTélécharger le document complet

Télécharger aussi :

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *