Caractéristiques et fonctions
On distingue deux familles de snoARN sur la base de la présence d’éléments caractéristiques : les antisens à boîtes C/D et les antisens à boîtes H/ACA. Les snoARN à boîtes C/D (Fig A 1.15) contiennent les deux courts motifs de séquence conservés dits boîte C (5’-R8UGAUGA-3’) et boîte D (5’-CUGA-3’) à quelques nucléotides seulement des extrémités 5’ et 3’, respectivement. Une copie dégénérée de chacun de ces motifs (C’ & D’) peut également être présente dans la région centrale, selon les espèces. La quasitotalité de ces snoARNs contiennent de longues complémentarités (de 10 à 21 nt) à différentes régions conservées d’autres ARN (ARNr, ARNt, snARN, ARNm) et ils ont donc été appelés snoARNs antisens à boîtes C/D [BMN 95]. Généralement les deux boîtes C et D font partie d’une structure terminale caractéristique (Fig (A) 1.15) dans laquelle les nucléotides 5’- et 3’- terminaux sont appariés. L’intégrité de cette structure terminale est essentielle pour la maturation correcte du snoARN intronique (chez les eucaryotes) et sa stabilité dans la cellule [CB96]. Les deux boîtes C et D sont impliquées dans l’association de tous ces snoARNs avec la fibrillarine, une protéine nucléolaire requise pour la maturation normale du pré-ARNr et pour sa méthylation [MF95].
Pour les premiers snoARNs antisens à boîtes C/D qui avaient été identifiés, la caractérisation d’homologues dans des espèces très distantes avait permis d’observer une conservation particulièrement forte de la séquence de complémentarité à l’ARNr au cours de l’évolution, suggérant que l’appariement de ces snoARNs au pré-ARNr jouait un rôle essentiel dans la fonction de ces snoARNs [QNM 94]. La deuxième famille, dite H/ACA, a été identifiée plus tard. Elle est définie par la présence systématique du tri-nucléotide conservé H/ACA à 3 nucléotides de l’extrémité 3’ [BSF96] et la présence d’un ou plusieurs longs domaines indépendants de structure secondaire organisés en tige-boucle. Lorsque plus d’un domaine existe, ces deux domaines sont séparées par une région charnière simple brin riche en purine et incluant une boîte H ( 5’-ANANNA-3’) (Fig (B) 1.15). Le triplet ACA, situé à l’extrémité 3’, est requis pour la maturation et la stabilité de ces snoARNs [BSF96]. Chez la levure, les snoARNs de la famille ACA co-précipitent tous avec la protéine nucléolaire, Gar1 [GLCF 92, BSF96, GBK97]. Ces snoARN de type H/ACA possèdent aussi des complémentarités à d’autres ARN (essentiellement ARNr). Cependant, les complémentarités à l’ARN cible sont organisées différemment (Fig (B) 1.15).
Ces deux familles d’ARN nucléolaires induisent respectivement sur leurs cibles ARN une méthylation en 2’-O sur le ribose ou une pseudouridylation (isomérisation de l’uridine en pseudo uridine). Ces modifications post-transcriptionnelles sont précisément localisées (en général sur des positions hautement conservées) grâce à la formation d’une structure particulière en duplex snoARN/ARN cible. Les structures secondaires formées par les snoARNet leur cibles jouent donc un rôle prépondérant dans les phénomène d’appariement-modification. Les snoARN sont présents dans de nombreux organismes (vertébrés, plantes, levures, archaebactéries [GCEB00, OLR 00], …). Ils ont pour cibles les ARNr, les ARNt, les snARN et certainement d’autre types d’ARN pour lesquels aucune démonstration n’est aujourd’hui disponible. Les gènes de snoARN se retrouventmajoritairement dans les introns d’un gène hôte (vertébrés), parfois en unités géniques autonomes (plantes, levure, archaebactéries) ou parfois même dans certains exons (plantes). De plus, de nouveaux snoARN, dépourvus de complémentarité pour les ARNr et snARN et qui ne sont pas exprimés ubiquitairement (localisés dans les introns de gènes à expression tissu-spécifique) ont été mis en évidence, ce qui ouvre des perspectives quant à l’étendue des fonctions des snoARN et justifie leur étude approfondie.
Les ARN impliqués dans la régulation de fonctions
La cellule est capable d’adapter rapidement son métabolisme aux modifications de l’environnement grâce aux mécanismes de régulation qui permettent de contrôler la production de protéines particulières. La régulation de l’expression des gènes se fait à plusieurs niveaux selon les cas. Par exemple, lors de l’initiation de la transcription (activation ou non du promoteur), au niveau post-transcriptionnel (jouant sur la stabilité ou sur le contrôle des étapes de maturation des ARN messagers), ou bien au niveau post-traductionnel en agissant sur la vitesse de traduction ou sur la stabilité de la protéine. Selon l’effet produit par la régulation d’une molécule, on parle de molécule effectrice (activation) ou inhibitrice (inhibition). Les régulateurs au niveau transcriptionnel ou post-transcriptionnel permettent d’adapter rapidement la croissance bactérienne aux conditions du milieu extérieur et à divers stress. En effet, une régulation effectuée dans les premières étapes de la synthèse des protéines présente l’avantage d’être efficace et plus économique pour la cellule. Les régulateurs peuvent être des molécules protéiques ou d’ARN. Pour qu’une régulation soit effectuée, il est nécessaire qu’une interaction entre la molécule régulatrice et la molécule à réguler soit possible. Les ARN régulateurs ou riborégulateurs ont ainsi la capacité de pouvoir interagir avec des molécules d’ADN, d’ARN ou protéiques. Dans les deux premiers cas, les interactions de type ADN/ARNm ou ARN/ARNm impliquent deux régions présentant une complémentarité de séquence stricte ou partielle. La régulation d’une protéine par un ARNest généralement inhibitrice et la molécule d’ARN, en interagissant avec la protéine, la séquestre. D’autresARN régulateurs sont multi-fonctionnels et contiennent à la fois des sites de reconnaissance pour des protéines et des séquences ciblant des ARNm (pour revue détaillée [Kol01]).
L’ARNomique, propriétés utilisées pour la localisation des ARN Les premières mises en évidence de petits ARN non codants ont été basées sur des études expérimentales. Cependant, avec la croissance exponentielle des bases de données, l’approche in vivo devient de plus en plus laborieuse et le besoin de logiciels pour la détection de régions fonctionnelles est de plus en plus flagrant. L’approche in silico permet ainsi de prédire des gènes non-codants et de fournir des candidats aux biologistes. La démarche de ces derniers consiste ensuite à en démontrer expérimentalement leur synthèse et à élucider leur fonction biologique. Un nouveau champ de recherche nommé ARNomique a vu le jour ces dernières années. Il désigne les études portant sur l’identification et l’étude fonctionnelle des gènes dits non-codants. Les récentes recherches systématiques pour de tels ARN ont changé notre vision au sujet de leur prévalence et de nombreux représentants de ces molécules sont maintenant connus aussi bien chez les archae-bactéries que chez les procaryotes et eucaryotes (pour revue [Sto02]).
Alors que les outils de prédiction des gènes codants pour des protéines sont de plus en plus performants, il reste toujours très difficile de détecter les gènes d’ARN non codants. La raison principale est liée au fait que les signaux utilisés par les logiciels de recherche de gènes, tels les codons start et stop (délimitant le cadre de lecture ouvert) ou le biais spécifique de chaque espèce dans l’usage des codons, ne sont pas présents dans les gènes d’ARN. Ceux présents dans les gènes d’ARN non codants sont à l’inverse moins bien reconnaissables (promoteurs, terminateurs) et, de ce fait, représentent des indicateurs moins pertinents de la présence de gènes. Les signaux biologiques sont généralement caractérisés par leur séquence. Cependant, pour beaucoup de processus biologiques, le vrai signal est défini par une structure spatiale d’ordre supérieur [BKV96, Edd99]. L’exemple type concerne lesmolécules d’ARN. En effet, en prenant l’exemple des ARN 16S,Woese et al [WGGN83] ont montré par une étude phylogénétique une meilleure conservation de la structure secondaire : elle est une caractéristique plus pertinente que la structure primaire. Les programmes de référence de recherche de similarités que FASTA [PL88] ou BLAST [AGM 90] sont donc limités pour l’identification de molécules d’ARN. Les informations contenues à la fois dans la séquence et la structure peuvent ainsi être vues comme des signaux biologiques à exploiter pour une recherche. Les paragraphes suivants abordent les approches les plus utilisées pour localiser des gènes d’ARN (pour revue [Sch02a]). Les méthodologies basées sur des approches thermodynamique ou comparative permettent de faire de la recherche de novo d’ARN non codants en utilisant des caractéristiques générales à l’ensemble des ARN. Les deux autres approches nécessitent de connaître des molécules d’ARN modèles ou les caractéristiques spécifiques d’une famille.
Applications utilisant une approche comparative Wassarman et al. [WRR 01] ont utilisé comme unique critère le degré de conservation des régions intergéniques entre E. coli, Salmonella pneumonia et Klebsiella pneumonia pour générer une liste d’ARNnc potentiels. Les résultats obtenus ont été relativement importants et ont donné lieu à des recherches expérimentales utilisant les micro-arrays. Leur méthode a permis de prédire 60 nouveaux ARNnc chez E. coli dont 18 ont été prouvés expérimentalement. Une seconde approche menée par Argaman et al. [AHV 01] sur E.coli a consisté à combiner un ensemble de critères obtenus lors de la comparaison d’ARNnc déjà identifiés (entre autres les signaux transcriptionnels tel que les promoteurs et terminateurs) avec une recherche de séquences conservées parmi un ensemble de génomes bactériens. Ils ont ainsi obtenus 24 nouvelles prédictions dont 14 ont été prouvées expérimentalement. Cette approche est difficilement applicable à des génomes bactériens ou non bactériens pour lesquels les séquences signaux sont moins bien conservés entre espèces. Rivas et Eddy [RKJE01, RE01] ont basé leur approche, implémentée dans QRNA, sur la recherche de régions conservées entre différentes espèces et sur l’examen en parallèle de la nature des différences obtenues lors de la comparaison. L’hypothèse consiste à considérer une région comme appartenant à un gène codant pour une protéine si les différences observées entre les séquences homologues correspondent soit (i) à des codons synonymes 12 soit (ii) à des codons codant pour des acides aminés ayant les mêmes caractéristiques physico-chimiques. A l’inverse, si la région contient un ARNnc, alors un plus grand pourcentage de différences surviennent entre les régions complémentaires préservant ainsi la structure secondaire des ARN (le principe des covariations). En dernier lieu, si la région ne contient aucun gène, alors la distribution des différences entre espèces devrait correspondre à leur fréquence en bases. L’avantage d’une telle approche est d’être applicable à tous génomes pour lesquels la séquence complète est disponible.
Introduction |