Présentation de l’organisme model Arabidopsis thaliana
Arabidopsis thaliana est une plante annuelle de la famille des Brassicaceae (Angiospermes, Dicotylédones vraies) à laquelle appartiennent également le chou et le colza. Certaines de ses caractéristiques comme sa petite taille, sa grande prolificité (plusieurs milliers de graines produites par plante), son cycle de reproduction court (2 mois) ainsi qu’un mode de reproduction essentiellement autogame (98% d’autogamie) permettant l’obtention de lignées pures en font un organisme model de laboratoire idéal. De plus, son génome diploïde d’une taille de 125MB environs répartit en 5 chromosomes est le plus petit génome végétal connu ce qui facilite les approches génomiques. Il est entièrement séquencé à l’exception des répétitions centromériques (114,5Mb/125Mb) qui sont composées d’un très grand nombre de répétitions en tandem d’une séquence de 180bp (AGI 2000). Les analyses in silico ont permis l’annotation de quelques 28000 gènes codant des protéines
Les éléments transposables (ET)
Définition, découverte et généralités
Les ET sont des séquences répétées dispersées qui ont la capacité de se déplacer au sein d’un génome par un mécanisme appelé transposition. Ils ont été mis en évidence à la fin des années 1940 par Barbara McClintock suite à l’observation de mutations instables chez le maïs. La première mise en évidence de la transposition a été faite sur le système Ac‐Ds (activator‐dissociation) où la présence d’un élément Ac induit l’excision de l’élément Ds qui génère une cassure chromosomique. Cette cassure a pour conséquence la délétion d’un gène impliqué dans la régulation de la voie des anthocyanes (pigment) de l’albumen du grain de mais. De par la conséquence phénotypique associée à leur mobilisation, ces éléments ont alors été appelés éléments de contrôle (McClintock, non publié, repris dans Fedoroff 2013). Par la suite, de nombreux autres éléments transposables ont étés identifiés chez de nombreux organismes. Depuis quelques années, le séquençage des génomes de nombreuses espèces a pu mettre en évidence que les ET et leurs reliques sont des composants majeurs des génomes eucaryotes allant de ~3% chez la levure S. cerevisae et pouvant atteindre jusqu’à 45% chez l’Homme et >80% chez certain végétaux (fig. 1.1) (Vieira et al. 2012). De fait, la proportion de séquences répétées d’un génome, dont une grande partie sont des vestiges d’ET, est positivement corrélée avec la taille de celui‐ci. Ce phénomène, est à l’origine du paradoxe de la valeur C qui illustre l’absence de corrélation entre la « complexité » d’un organisme et la taille de son génome.
Classification des ET et mécanismes de transposition
Les ET peuvent être classés selon leur mode de transposition dans deux catégories majeures : les ET de type I, ou rétroéléments, dont la mobilisation fait intervenir un intermédiaire ARN et les ET de type II, ou transposons à ADN, qui utilisent un intermédiaire ADN pour leur transposition. Par ailleurs, les ET peuvent être regroupés en superfamilles puis en familles en fonction de leur structure, de la similarité de leur séquence nucléotidique ou protéique ou encore de la longueur de la séquence cible dupliquée (TSD, Target Site Duplication) lors de la transposition (fig. 1.2) (Wicker et al. 2007).
Les ET de type I ou rétroéléments
Les ET de type I sont caractérisés par un mode de transposition dit de « copier/coller » faisant intervenir un intermédiaire ARN et une étape de transcription inverse. Ce mode de transposition engendre systématiquement l’augmentation du nombre de copies ce qui peut expliquer en partie la prédominance de ce type d’ET dans les génomes eucaryotes. Il existe deux grandes classes de rétroéléments : ceux à grandes répétitions terminales (LTR, Long Terminal Repeat) et ceux sans LTR qui diffèrent également par leur mode de rétrotransposition. Les rétroéléments à LTR sont très étroitement apparentés aux rétrovirus. Les LTR sont orientées dans le même sens et leur taille peut varier de quelques centaines à plus d’un millier de paires de bases. Elles constituent les régions promotrices de ces ET. Comme chez les rétrovirus, elles contiennent trois domaines consécutifs U3, R et U5. Les éléments autonomes contiennent au moins deux ORF, l’une correspondant au gène GAG qui code une polyprotéine de capside, l’autre au gène POL qui code une polyprotéine impliquée dans les diverses étapes de la rétrotransposition (fig. 1.3). Cette polyprotéine présente les activités enzymatiques suivantes : ‐ Une protéase qui permet le clivage de la polyprotéine POL et de la polyprotéine GAG. ‐ Une transcriptase inverse (RT) qui catalyse la transcription inverse. ‐ Une RNase H qui dégrade l’ARN quand il est sous forme d’hétéroduplexe avec l’ADNc produit par la transcription inverse. ‐ Une intégrase qui a notamment une activité d’endonucléase et qui permet l’intégration de l’ADNc double brin dans le génome. Deux superfamilles de rétroéléments à LTR sont présentes chez les plantes et sont déterminées sur la base de l’organisation des différents domaines au sein du gène POL : les LTR/COPIA (Pseudoviridae) et les LTR/GYPSY (Metaviridae) (fig. 1.4) (Havecker et al. 2004, Sabot and Schulman 2006). La mobilisation des rétroéléments à LTR, similaire à celle des rétrovirus (fig. 1.5), fait intervenir une étape de transcription inverse (dont les étapes sont détaillées fig. 1.6), qui a lieu au sein de la capside, dans le cytoplasme. Deux ARN sont en général présents au sein d’une même capside et la RT est alors capable de « sauter » d’une matrice ARN à une autre. Si les deux ARN proviennent de locus distincts cela peut aboutir à la création d’un ADNc composite de plusieurs éléments donneurs (Goodrich and Duesberg 1990, Jordan and McDonald 1998). Les rétrotransposons sans LTR regroupent principalement les LINE (Long Interspersed Nuclear Elements) et les SINE (Short Interspersed Nuclear Elements) (fig. 1.7). Les LINE ont une taille d’environ 6‐7kb et contiennent deux ORF, l’ORF1 codant une protéine chaperonne d’acide nucléique et l’ORF2 la RT et l’endonuclease. Les LINE présentent également une région 5’UTR qui contient la région promotrice et une courte région 3’ suivie d’un signal de polyadénylation et d’une séquence polyA issue de la transcription inverse de l’extrémité polyA du transcrit. Les SINE sont des séquences répétées de taille et de structure variables allant de quelques centaines de paires de bases (pour la plupart) à plusieurs kb. Tout comme les LINE, ils présentent une séquence polyA mais à l’inverse de ces derniers, ils ne codent pas les protéines nécessaires à leur transposition. De fait, ils utilisent la machinerie des LINE pour leur mobilisation et sont, par conséquent, non‐autonomes. Du fait de cette mobilisation en trans, la région 3’ de certains SINE présente des homologies de séquence avec les régions 3’ des LINE au sein d’un même organisme (Ogiwara et al. 1999). Enfin, la majorité des SINE décrits (et notamment tous ceux identifiés dans les génomes végétaux) présentent intrinsèquement des promoteurs Pol III, une grande partie d’entre eux dérivant d’ARN de transfert (Feschotte et al. 2002, Deragon and Zhang 2006). Le cycle de rétrotransposition des LINE (fig. 1.8) diffère à plusieurs niveaux de celui des rétroélément à LTR. Après l’export dans le cytoplasme, l’ARN messager s’associe avec les protéines qu’il code pour former un complexe ribonucléoprotéique qui est ensuite réimporté dans le noyau. L’étape de transcription inverse a lieu au sein du noyau et est couplée à l’étape d’insertion par un processus appelé « target‐site‐primed reverse transcription » (TPRT) (Cost et al. 2002, Kazazian 2004). L’endonucléase coupe préférentiellement des séquences riches en T et l’extrémité polyA de l’ARNm peut alors s’associer à celle‐ci par complémentarité des bases (Levin and Moran 2011). Il est courant que la transcription inverse ne soit pas complète, donnant alors lieu à des nouvelles insertions tronquées en 5’, par conséquent incapables de se remobiliser, de façon autonome du moins. Il existe également d’autres types de rétroéléments sans LTR, présents notamment chez les plantes, dont les mécanismes de transposition sont encore énigmatiques. Les DIRS (Dictyostelium intermediate repeat sequences) qui possèdent une tyrosine recombinase à la place de l’intégrase et les PLE (Penelope‐like element) dont la RT présente plus de similarité avec une télomérase qu’avec les RT des LINE ou des rétroéléments à LTR (Wicker et al. 2007).
Les ET de type II ou transposons à ADN
Le type II regroupe deux sous‐classes d’ET (fig. 1.9). Les transposons de la sous‐classe 1 (fig. 1.9a) se déplacent dans le génome par un mécanisme de couper/coller qui consiste en l’excision d’un élément à son site donneur et son insertion à autre endroit du génome, le site accepteur (fig. 1.10a). La transposase assure l’excision et l’intégration du transposon car elle possède une activité endonucléase ainsi qu’une activité ligase qui permet la fusion des extrémités du TE avec la séquence acceptrice. Les éléments autonomes présentent au moins une ORF correspondant au gène codant la transposase et la présence de courtes séquences répétées inversées TIR (Tandem Inverted Repeats) à leurs extrémités. Les éléments non‐autonomes présentent également des TIR mais ne codent aucune transposase ou alors une forme défectueuse de celle‐ci. C’est notamment le cas des MITE (Miniature Inverted Repeats) qui ne sont composés que des TIR (Bureau and Wessler 1994) et sont mobilisés en trans par une transposase codée par un élément autonome. Contrairement au mode de transposition copier/coller des rétroélélments, le mode couper/coller n’induit pas systématiquement une augmentation du nombre de copies. En effet, si la réparation du site donneur se fait par « non‐homologous end joining », la copie au site donneur est perdue. En revanche, si la réparation se fait par recombinaison homologue (à partir de la séquence de la chromatide sœur ou du chromosome homologue) alors la copie du site donneur est conservée. Si le choix du mode de réparation qui suit l’excision n’est pas un phénomène encore bien caractérisé, il semble varier d’une famille de transposon à ADN à l’autre. Enfin, une mobilisation pendant la phase de réplication peut engendrer l’augmentation du nombre de copies quelque soit le mode de réparation adopté au locus donneur. Cela a notamment été décrit pour l’élément Ac qui s’excise après le passage de la fourche de réplication pour aller s’insérer dans une région encore non‐ répliquée (fig. 1.11) (Fedoroff 2013). Il faut noter que certains transposons à ADN présentent plusieurs ORF ou encore une ORF donnant lieu à plusieurs protéines par épissage alternatif du transcrit. Si les fonctions de ces protéines ne sont pas toujours caractérisées, certaines d’entre elles semblent jouer un rôle crucial dans la régulation de l’activité des ET. Ainsi, la protéine TNPA issue de l’épissage alternatif de l’unique ORF des éléments Spm du maïs est non seulement impliquée dans l’activation transcriptionnelle de ces éléments, mais peut également avoir un rôle de régulateur négatif de la transposition en se fixant en aval de la région promotrice et bloquant ainsi la transcription (Masson et al. 1989, Masson et al. 1991, Schlappi et al. 1993). De même, chez la drosophile, l’épissage alternatif du gène codant la transposase de l’élément P conduit à la production d’un répresseur de la transposition (Laski et al. 1986, Misra and Rio 1990).