L’interférence ARN : une révolution en génomique fonctionnelle

Caractéristiques et fonctions

On distingue deux familles de snoARN sur la base de la présence d’éléments caractéristiques : les antisens à boîtes C/D et les antisens à boîtes H/ACA. Les snoARN à boîtes C/D (Fig A 1.15) contiennent les deux courts motifs de séquence conservés dits boîte C (5’-R8UGAUGA-3’) et boîte D (5’-CUGA-3’) à quelques nucléotides seulement des extrémités 5’ et 3’, respectivement. Une copie dégénérée de chacun de ces motifs (C’ & D’) peut également être présente dans la région centrale, selon les espèces. La quasitotalité de ces snoARNs contiennent de longues complémentarités (de 10 à 21 nt) à différentes régions conservées d’autres ARN (ARNr, ARNt, snARN, ARNm) et ils ont donc été appelés snoARNs antisens à boîtes C/D [BMN􀀀 95]. Généralement les deux boîtes C et D font partie d’une structure terminale caractéristique (Fig (A) 1.15) dans laquelle les nucléotides 5’- et 3’- terminaux sont appariés. L’intégrité de cette structure terminale est essentielle pour la maturation correcte du snoARN intronique (chez les eucaryotes) et sa stabilité dans la cellule [CB96]. Les deux boîtes C et D sont impliquées dans l’association de tous ces snoARNs avec la fibrillarine, une protéine nucléolaire requise pour la maturation normale du pré-ARNr et pour sa méthylation [MF95].

Pour les premiers snoARNs antisens à boîtes C/D qui avaient été identifiés, la caractérisation d’homologues dans des espèces très distantes avait permis d’observer une conservation particulièrement forte de la séquence de complémentarité à l’ARNr au cours de l’évolution, suggérant que l’appariement de ces snoARNs au pré-ARNr jouait un rôle essentiel dans la fonction de ces snoARNs [QNM􀀀 94]. La deuxième famille, dite H/ACA, a été identifiée plus tard. Elle est définie par la présence systématique du tri-nucléotide conservé H/ACA à 3 nucléotides de l’extrémité 3’ [BSF96] et la présence d’un ou plusieurs longs domaines indépendants de structure secondaire organisés en tige-boucle. Lorsque plus d’un domaine existe, ces deux domaines sont séparées par une région charnière simple brin riche en purine et incluant une boîte H ( 5’-ANANNA-3’) (Fig (B) 1.15). Le triplet ACA, situé à l’extrémité 3’, est requis pour la maturation et la stabilité de ces snoARNs [BSF96]. Chez la levure, les snoARNs de la famille ACA co-précipitent tous avec la protéine nucléolaire, Gar1 [GLCF􀀀 92, BSF96, GBK97]. Ces snoARN de type H/ACA possèdent aussi des complémentarités à d’autres ARN (essentiellement ARNr). Cependant, les complémentarités à l’ARN cible sont organisées différemment (Fig (B) 1.15).

Ces deux familles d’ARN nucléolaires induisent respectivement sur leurs cibles ARN une méthylation en 2’-O sur le ribose ou une pseudouridylation (isomérisation de l’uridine en pseudo uridine). Ces modifications post-transcriptionnelles sont précisément localisées (en général sur des positions hautement conservées) grâce à la formation d’une structure particulière en duplex snoARN/ARN cible. Les structures secondaires formées par les snoARNet leur cibles jouent donc un rôle prépondérant dans les phénomène d’appariement-modification. Les snoARN sont présents dans de nombreux organismes (vertébrés, plantes, levures, archaebactéries [GCEB00, OLR􀀀 00], …). Ils ont pour cibles les ARNr, les ARNt, les snARN et certainement d’autre types d’ARN pour lesquels aucune démonstration n’est aujourd’hui disponible. Les gènes de snoARN se retrouventmajoritairement dans les introns d’un gène hôte (vertébrés), parfois en unités géniques autonomes (plantes, levure, archaebactéries) ou parfois même dans certains exons (plantes). De plus, de nouveaux snoARN, dépourvus de complémentarité pour les ARNr et snARN et qui ne sont pas exprimés ubiquitairement (localisés dans les introns de gènes à expression tissu-spécifique) ont été mis en évidence, ce qui ouvre des perspectives quant à l’étendue des fonctions des snoARN et justifie leur étude approfondie.

Les ARN impliqués dans la régulation de fonctions

La cellule est capable d’adapter rapidement son métabolisme aux modifications de l’environnement grâce aux mécanismes de régulation qui permettent de contrôler la production de protéines particulières. La régulation de l’expression des gènes se fait à plusieurs niveaux selon les cas. Par exemple, lors de l’initiation de la transcription (activation ou non du promoteur), au niveau post-transcriptionnel (jouant sur la stabilité ou sur le contrôle des étapes de maturation des ARN messagers), ou bien au niveau post-traductionnel en agissant sur la vitesse de traduction ou sur la stabilité de la protéine. Selon l’effet produit par la régulation d’une molécule, on parle de molécule effectrice (activation) ou inhibitrice (inhibition). Les régulateurs au niveau transcriptionnel ou post-transcriptionnel permettent d’adapter rapidement la croissance bactérienne aux conditions du milieu extérieur et à divers stress. En effet, une régulation effectuée dans les premières étapes de la synthèse des protéines présente l’avantage d’être efficace et plus économique pour la cellule. Les régulateurs peuvent être des molécules protéiques ou d’ARN. Pour qu’une régulation soit effectuée, il est nécessaire qu’une interaction entre la molécule régulatrice et la molécule à réguler soit possible. Les ARN régulateurs ou riborégulateurs ont ainsi la capacité de pouvoir interagir avec des molécules d’ADN, d’ARN ou protéiques. Dans les deux premiers cas, les interactions de type ADN/ARNm ou ARN/ARNm impliquent deux régions présentant une complémentarité de séquence stricte ou partielle. La régulation d’une protéine par un ARNest généralement inhibitrice et la molécule d’ARN, en interagissant avec la protéine, la séquestre. D’autresARN régulateurs sont multi-fonctionnels et contiennent à la fois des sites de reconnaissance pour des protéines et des séquences ciblant des ARNm (pour revue détaillée [Kol01]).

L’ARNomique, propriétés utilisées pour la localisation des ARN Les premières mises en évidence de petits ARN non codants ont été basées sur des études expérimentales. Cependant, avec la croissance exponentielle des bases de données, l’approche in vivo devient de plus en plus laborieuse et le besoin de logiciels pour la détection de régions fonctionnelles est de plus en plus flagrant. L’approche in silico permet ainsi de prédire des gènes non-codants et de fournir des candidats aux biologistes. La démarche de ces derniers consiste ensuite à en démontrer expérimentalement leur synthèse et à élucider leur fonction biologique. Un nouveau champ de recherche nommé ARNomique a vu le jour ces dernières années. Il désigne les études portant sur l’identification et l’étude fonctionnelle des gènes dits non-codants. Les récentes recherches systématiques pour de tels ARN ont changé notre vision au sujet de leur prévalence et de nombreux représentants de ces molécules sont maintenant connus aussi bien chez les archae-bactéries que chez les procaryotes et eucaryotes (pour revue [Sto02]).

Alors que les outils de prédiction des gènes codants pour des protéines sont de plus en plus performants, il reste toujours très difficile de détecter les gènes d’ARN non codants. La raison principale est liée au fait que les signaux utilisés par les logiciels de recherche de gènes, tels les codons start et stop (délimitant le cadre de lecture ouvert) ou le biais spécifique de chaque espèce dans l’usage des codons, ne sont pas présents dans les gènes d’ARN. Ceux présents dans les gènes d’ARN non codants sont à l’inverse moins bien reconnaissables (promoteurs, terminateurs) et, de ce fait, représentent des indicateurs moins pertinents de la présence de gènes. Les signaux biologiques sont généralement caractérisés par leur séquence. Cependant, pour beaucoup de processus biologiques, le vrai signal est défini par une structure spatiale d’ordre supérieur [BKV96, Edd99]. L’exemple type concerne lesmolécules d’ARN. En effet, en prenant l’exemple des ARN 16S,Woese et al [WGGN83] ont montré par une étude phylogénétique une meilleure conservation de la structure secondaire : elle est une caractéristique plus pertinente que la structure primaire. Les programmes de référence de recherche de similarités que FASTA [PL88] ou BLAST [AGM􀀀 90] sont donc limités pour l’identification de molécules d’ARN. Les informations contenues à la fois dans la séquence et la structure peuvent ainsi être vues comme des signaux biologiques à exploiter pour une recherche. Les paragraphes suivants abordent les approches les plus utilisées pour localiser des gènes d’ARN (pour revue [Sch02a]). Les méthodologies basées sur des approches thermodynamique ou comparative permettent de faire de la recherche de novo d’ARN non codants en utilisant des caractéristiques générales à l’ensemble des ARN. Les deux autres approches nécessitent de connaître des molécules d’ARN modèles ou les caractéristiques spécifiques d’une famille.

Applications utilisant une approche comparative Wassarman et al. [WRR􀀀 01] ont utilisé comme unique critère le degré de conservation des régions intergéniques entre E. coli, Salmonella pneumonia et Klebsiella pneumonia pour générer une liste d’ARNnc potentiels. Les résultats obtenus ont été relativement importants et ont donné lieu à des recherches expérimentales utilisant les micro-arrays. Leur méthode a permis de prédire 60 nouveaux ARNnc chez E. coli dont 18 ont été prouvés expérimentalement. Une seconde approche menée par Argaman et al. [AHV􀀀 01] sur E.coli a consisté à combiner un ensemble de critères obtenus lors de la comparaison d’ARNnc déjà identifiés (entre autres les signaux transcriptionnels tel que les promoteurs et terminateurs) avec une recherche de séquences conservées parmi un ensemble de génomes bactériens. Ils ont ainsi obtenus 24 nouvelles prédictions dont 14 ont été prouvées expérimentalement. Cette approche est difficilement applicable à des génomes bactériens ou non bactériens pour lesquels les séquences signaux sont moins bien conservés entre espèces. Rivas et Eddy [RKJE01, RE01] ont basé leur approche, implémentée dans QRNA, sur la recherche de régions conservées entre différentes espèces et sur l’examen en parallèle de la nature des différences obtenues lors de la comparaison. L’hypothèse consiste à considérer une région comme appartenant à un gène codant pour une protéine si les différences observées entre les séquences homologues correspondent soit (i) à des codons synonymes 12 soit (ii) à des codons codant pour des acides aminés ayant les mêmes caractéristiques physico-chimiques. A l’inverse, si la région contient un ARNnc, alors un plus grand pourcentage de différences surviennent entre les régions complémentaires préservant ainsi la structure secondaire des ARN (le principe des covariations). En dernier lieu, si la région ne contient aucun gène, alors la distribution des différences entre espèces devrait correspondre à leur fréquence en bases. L’avantage d’une telle approche est d’être applicable à tous génomes pour lesquels la séquence complète est disponible.

Table des matières

Introduction
1 Contexte biologique
1.1 Introduction à la biologie moléculaire
1.1.1 Le dogme central de la biologie moléculaire .
1.1.2 L’ADN
1.1.3 l’ARN
1.1.4 Le dogme central – thème et variations
1.2 Les ARN : une famille en expansion
1.2.1 L’état actuel des connaissances chez E. coli
1.2.2 Nomenclature des gènes d’ARN
1.2.3 Diversité des ARN non codants
1.2.4 Le mode d’action des ARN non codants
1.3 Quelques exemples de familles d’ARN non codants
1.3.1 Les ARN impliqués dans la maturation d’autres ARN
1.3.2 Les ARN impliqués dans la régulation de fonctions
1.3.3 L’interférence ARN : une révolution en génomique fonctionnelle
1.4 L’ARNomique, propriétés utilisées pour la localisation des ARN
1.4.1 Approche thermodynamique
1.4.2 Détermination du contenu en (G+C)
1.4.3 Approche par modélisation comparative
1.4.4 Approche descriptive
1.5 L’hypothèse d’un monde à ARN
1.6 En résumé
2 Recherche de mots
2.1 Les séquences nucléiques vues comme un texte
2.1.1 Terminologie
2.1.2 Extraction d’information
2.1.3 Représentation de l’information
2.1.4 La recherche de mots
2.2 Recherche avec pré-traitement du mot
2.2.1 Algorithme naïf
2.2.2 Algorithme de Boyer et Moore
2.2.3 Algorithme de Baeza-Yates et Manber
2.2.4 Recherche approchée
2.3 Recherche avec pré-traitement du texte
2.3.1 L’arbre digital des suffixes
2.3.2 L’arbre des suffixes
2.3.3 Recherche d’un mot dans un arbre des suffixes
2.3.4 Tableau de suffixes
2.4 Conclusion
3 Étude de l’existant dans le cadre CSP
3.1 Définitions
3.1.1 Motifs structurés
3.1.2 Logiciels spécifiques ou généralistes
3.2 Étude des logiciels généralistes dans le cadre CSP
3.2.1 Présentation du formalisme CSP
3.2.2 Cadre de comparaison des logiciels
3.2.3 Langages utilisateur : variables et contraintes
3.2.4 PatScan
3.2.5 RnaMot
3.2.6 RnaBob
3.2.7 Palingol
3.2.8 RnaMotif
3.2.9 Cove
3.2.10 Erpin
3.3 Cadre de la comparaison des logiciels
3.3.1 Définitions
3.3.2 Données utilisées
3.4 Recherche d’ARN de transfert
3.4.1 Description de la molécule
3.4.2 Les algorithmes sur mesure pour les ARNt
3.4.3 Logiciels généralistes
3.4.4 Résultats obtenus avec Escherichia coli
3.4.5 Résultats obtenus avec Saccharomyces cerevisiae
3.4.6 Discussion sur la recherche des ARNt
3.5 Recherche de snoARN à boîtes C/D
3.5.1 Description de la molécule
3.5.2 Un algorithme sur mesure pour les snoARN à boîtes CD
3.5.3 Les modèles et protocoles de recherche utilisés par les logiciels généralistes
3.5.4 Paramétrage du logiciel spécifique
3.5.5 Données de référence
3.6 Analyse approfondie des résultats de la recherche de snoARN dans la séquence de P. aerophilum
3.6.1 Objectif
3.6.2 Extraction des régions inter-géniques
3.6.3 Sélection des candidats
3.6.4 Résultats
3.7 Discussion
3.8 Conclusion
3.9 Bilan et objectifs
3.9.1 Objectifs dans le cadre de la thèse
4 Modélisation du problème de la recherche de motif
4.1 Approche par les grammaires
4.1.1 Définition d’une grammaire
4.1.2 Hiérarchie de Noam Chomsky
4.1.3 Langages et analyse lexicale
4.1.4 Analyse lexicale par automate
4.1.5 Application des grammaires aux séquences nucléiques
4.2 Approche par les CSP
4.2.1 Définition d’un système de contraintes
4.2.2 Techniques de résolution d’un CSP
4.2.3 Application des CSP aux séquences nucléiques
4.3 Conclusion
5 Formalisme CSP et recherche de motifs structurés 149
5.1 Représentation d’une occurrence
5.1.1 Définitions
5.2 Formalisation dans le cadre CSP
5.2.1 Les contraintes unaires
5.2.2 Les contraintes binaires
5.2.3 Les contraintes d’arité
5.2.4 Quelques exemples
5.3 La recherche de solutions
5.3.1 Choix de la méthode de filtrage
5.3.2 Mécanisme général de résolution du CSP
5.4 La propagation des contraintes
5.4.1 Contrainte Est_Au_Moins_Distant
5.4.2 Contrainte Est_De_Nature
5.4.3 Contrainte Est_Palindrome
5.4.4 Contrainte Est_Duplex
5.5 Prototype Milpat
5.5.1 Architecture
5.5.2 Résultats
5.5.3 Discussion
Conclusion – Perspectives
Bibliographie