Etude des conséquences d’une perte de méthylation de l’ADN sur la mobilisation des éléments transposables
Cette hypométhylation étant transmise à la descendance (du moins à certains locus), on peut s’attendre à de nouveaux évènements de transposition dans celle‐ci. Alors que les nouvelles insertions produites dans le parent ddm1 ou la F1 (1 et 2) vont ségréger dans la population d’epiRIL et vont donc être présentes dans plusieurs lignées (insertions partagées), cellesComme décrit dans l’introduction, une perte drastique de la méthylation de l’ADN, telle qu’induite par une mutation dans le gène DDM1, engendre une réactivation transcriptionnelle massive des ET. Cela dit, il n’est pas établi dans quelle mesure cette réactivation transcriptionnelle des ET se traduit par leur mobilisation. Afin de répondre à cette question ainsi que pour déterminer le profil d’insertion des ET, nous avons procédé au séquençage du génome de 53 epiRIL ainsi que des deux lignées parentales.La population d’epiRIL est issue d’un croisement entre un parent sauvage et le mutant ddm1‐2 suivi d’un rétrocroisement avec le parent sauvage à la suite duquel seuls les individus homozygotes pour l’allèle sauvage du gène DDM1 ont été sélectionnés et autofécondés sur 6 générations (fig. 2.1). Compte tenu du schéma de croisement, chaque point du génome est en moyenne d’origine sauvage dans 75% des lignées et hérité du parent ddm1 dans 25% les lignées, sauf bien sûr à proximité du locus DDM1, systématiquement d’origine sauvage. Etant donné que l’hypométhylation induite par la mutation ddm1 est transmise de façon stable pour de nombreux locus, les epiRIL présentent des profils de méthylation contrastés (fig. 2.1).
Afin d’identifier les évènements de transposition ayant eu lieu dans le mutant ddm1 ou lors de la production des epiRIL (fig. 2.1) nous avons, en partenariat avec le Génoscope, réalisé le séquençage Illumina « paired‐end » de banques « mate‐pair » du génome de plus d’une cinquantaine de ces lignées ainsi que de deux individus sauvages et d’un mutant ddm1 cousins des parents utilisés pour générer la population d’epiRIL. Le séquençage paired‐end, contrairement au séquençage de lectures uniques permet d’identifier des variations structurales en se basant sur la détection de paires dites discordantes, à savoir de paires dont les deux lectures ne sont pas positionnées à la bonne distance l’une de l’autre ou mal orientées par rapport au génome de référence. Le choix de banques mate‐pair permet d’obtenir des lectures appariées situées physiquement à une grande distance l’une de l’autre (jusqu’à plusieurs kb), contrairement aux banques paired‐ end classiques qui couvrent de petites distances (500 bp maximum) (fig. 2.2). Le choix de banques mate‐pair présente deux avantages majeurs : (i) elle permet d’augmenter le nombre de lectures qui soutiennent une variation structurale donnée et donc l’exhaustivité et la robustesse de la détection de ces évènements ; (ii) elle produit une plus grande couverture horizontale des variations structurales ce qui permet d’avoir des informations sur la quasi‐totalité de la séquence insérée et notamment sa partie interne. Cette propriété est particulièrement importante dans le cadre de la détection de nouvelles insertions d’ET car l’une des difficultés majeures est l’identification précise du locus donneur. Avec l’approche que nous avons choisie, même un très faible niveau de polymorphisme, où qu’il soit localisé dans la séquence de l’ET, est suffisant pour discriminer entre plusieurs donneurs.
Afin d’optimiser la détection des nouvelles insertions d’ET basée sur des données de séquençage de banques mate‐pair, j’ai participé à l’élaboration de TE‐Tracker, un programme spécifiquement dédié à cette problématique. Ce travail est présenté dans un manuscrit en cours de finalisation, reproduit ci‐après. TEs and their abundant relics have been found in nearly all organisms and have been classied into several families based on sequence features and transposition mechanisms (Lopez-Flores and Garrido-Ramos, 2010). So-called DNA-transposons generally exhibit cut-and-paste trans- position, while retrotransposons use an ARN intermediate and thus transpose using a copy- and-paste mechanism. Retro-elements are further divided into two subclasses, depending on the presence or absence of Long Terminal Repeats (LTR). The biological role of TEs has been the subject of great controversy, and although they had been assimilated to \selsh » or \junk » DNA for some time (Doolittle and Sapienza, 1980), they are now recognized as important factors in the evolution of genome structure and function (Hurst and Werren, 2001; Rebollo et al., 2012).