METHODES POUR LES ANALYSES BIOINFORMATIQUES
– Interrogation de banques de données
Nous avons accédé à différentes banques de données publiques pour collecter toutes les données publiées et répertoriées sur le gène tyrosine aminotransférase cytosolique (TATc) (position, structure, séquence, carte des marqueurs le plus proches, mutations impliquées, niveau d’expression, pathologies liées. etc…). Nous nous sommes plus intéressés à la banque de donnée génomique Ensembl. Cette dernière est un projet qui relie EMBL-EBI et the Sanger Institute afin de développer un système de maintien et d’annotation automatique des génomes eucaryotes. Ensembl, permet un accès facile aux données de séquences, ce qui permet : – de prédire la structure et la localisation des gènes connus sur le génome mais aussi l’existence de nouveaux gènes. – d’annoter d’autres caractéristiques des génomes, telles la détermination du nombre d’exons par gène, l’identification des sites donneurs et accepteurs d’épissage des introns et leur tailles, la recherche du signal de poly-adenylation et récemment dans sa dernière version les position pour les SNPs déjà identifiés dans le génome. – de connecter à d’autres ressources génomiques. Le serveur Ensembl est en effet une toile communicante vers les différents serveurs dédiés à la génomique comme le serveur de l’université Santa Cruz UCSC et celui du National Center for Biotechnology Information, NCBI.
Les logiciels bioinformatiques
Le logiciel Artemis (release 5)
Artemis a été développé par The Sanger Institute, pour la visualisation et l’annotation de la séquence de l’ADN genomique. Ce logiciel fournit les résultats de l’analyse de la séquence d’ADN demandée et les particularités de cette séquence: exons, STS, CDS et les régions répétées. La séquence et l’annotation peuvent être lues et écrites directement dans EMBL, GeneBank, et le format de GFF (Rutherford et al., 2000). Le logiciel Artemis est écrit dans le langage Java et peut être dirigé sur n’importe quelle plateforme (UNIX, GNU/Linux, WINDOWS). 23 METHODES POUR LES ANALYSES BIOINFORMATIQUES 24 Nous avons exportées une sous région couvrant 16,2 Kb de la région 16q22.2 comprenant la séquence complète du gène TATc. En vue d’identifier un polymorphisme de type microsatellite, nous avons édité un fichier contenant toutes les données concernant le gène TATc ainsi que toutes les régions répétées incluses. Le format choisi pour ce fichier est le format GeneBank pour être lisible avec le logiciel Artemis.
Le logiciel BLAST pour la recherche de similarité de séquences
BLAST est un programme permettant de réaliser un alignement local entre deux séquences (nucléiques ou protéiques). Sa rapidité permet d’effectuer des comparaisons entre une séquence donnée et un très grand ensemble de séquences, par exemple l’intégralité de la base GenBank, Swissprot, PDB ou autres. Il peut être utilisé en mode interactif à travers différents sites tels que NCBI, Sanger, Infobiogen ou téléchargé localement.
Principe du BLAST
La conception du logiciel BLAST est basée sur un modèle statistique établi d’après les méthodes de Karlin et Altschul (Altschul et al., 1997) appliqué aux comparaisons de séquences sans insertion-délétion. L’unité fondamentale du BLAST est le HSP (High-scoring Segment Pair) (Figure 6).
Résultat fourni par BLAST
BLAST fournit les résultats sous la forme de ‘hits’. Un hit correspond à une séquence déterminée par BLAST comme étant homologue à la séquence donnée compte tenu des paramètres fournis par l’utilisateur ou par défaut. A chaque hit sont associé un score et une E-value. Le score (en bits) d’un alignement est la somme normalisée des scores lettre à lettre entre la séquence donnée et la séquence homologue. La E-value d’un alignement de deux séquences de tailles m et n correspond à la probabilité de trouver un alignement de même score pour deux séquences aléatoires de tailles m et n. Plus cette probabilité est faible, plus l’alignement est significatif