Support de cours bases de données et outils bioinformatiques, tutoriel & guide de travaux pratiques bases de données en pdf.
LES BANQUES DE DONNÉES UTILES DANS LE DOMAINE DE LA GÉNÉTIQUE
LES « GENOME BROWSERS »
Ils correspondent à différentes bases de données qui permettent d’accéder aux données du génome humain (et de celui d’autres espèces) à l’aide d’une interface graphique. En plus des données de séquence, ces navigateurs permettent d’accéder à de nombreuses données d’annotation (gènes avec exons et introns, sites de fixation, régions d’homologie) ( (cf. 3.1 : ) ).
Les plus populaires sont :
● Ensembl (European Bioinformatics Institute / Wellcome Trust Sanger Institute)
● NCBI (National Cancer for Biology Information)
● UCSC (University of California Santa Cruz)
D’autres méritent également le détour :
● Vista (University of California)
● Argo (BROAD Institute)
● Mochiview (University of California Santa Cruz)
● X :map (Paterson Institute for Cancer Research)
● DiProGB (Leibniz Institute for Age Research)
● Genatlas (Université René Descartes – Paris)
Si l’ensemble des « Genome Browsers » permet d’accéder à de très nombreuses données, aucun d’entre eux ne génère ces données. Ils sont donc dépendants d’autres centres ou laboratoires de recherche qui eux les produisent. Ceci explique pourquoi les mêmes données sont partagées par ces différents navigateurs et c’est souvent l’interface qui oriente vers l’un plutôt que l’autre ou la richesse des outils d’analyse associés.
Il existe cependant des « Genome Browsers » dédiés à un projet de recherche particulier. Dans ce cas, leur champ d’action est plus réduit mais ils fournissent directement les données et sont donc responsables de leur qualité. Il est en effet critique de s’assurer de la qualité des données collectées dans une base de données car si elle est ouverte à tous, sa qualité ne pourra être assurée et les données qu’elle contient seront vite d’une utilité limitée comme nous le verrons dans le chapitre dédiée aux banques de données de mutations ( (cf. 2.5.1 : ) ).
Trois bases de données illustrent bien cette catégorie :
● James Watson’s Personal Genome Sequence (Baylor College of Medicine)
● Craig Venter’s Personal Genome Sequence (Craig Venter Institute)
● 1000 genomes project (Projet international)
Comme nous l’avons vu, les différents « Genome Browsers » partagent des données brutes (séquence de référence) mais également des données d’annotation. Comme le montre la figure 1, il existe ainsi des relations complexes entre les fournisseurs de données et les « Genome Browsers ».
Rectangle rose = fournisseurs de données : centres de séquençage académiques et privés, centres de séquençage et d’assemblage du projet génome humain, projets de séquençage de génomes personnels (James Watson, Craig Venter …), projet 1 000 génomes. Rectangle vert = Genome Browsers. Lignes pointillées = données utilisées par les génomes Browsers. Flèches rouges = liens entre les différents Genome Browsers.
L’ANNOTATION : OUTILS ET BASES DE DONNÉES
La connaissance de la séquence du génome humain n’aurait qu’une portée limitée si elle n’était annotée à différents niveaux. Ainsi l’annotation est un processus complexe qui peut être subdivisé en trois catégories : l’annotation syntaxique, l’annotation fonctionnelle et l’annotation relationnelle (figure 2) :
L’annotation syntaxique qui permet d’identifier les séquences présentant une pertinence biologique (gènes, signaux, répétitions, …)
L’annotation fonctionnelle qui permet de prédire les fonctions et produits potentiels des gènes préalablement identifiés (similitudes de séquences, motifs, structures, …) et de collecter d’éventuelles informations expérimentales (littérature, jeux de données à grande échelle, …)
L’annotation relationnelle qui permet enfin de déterminer les interactions que les objets biologiques préalablement identifiés sont susceptibles d’entretenir (familles de gènes, réseaux de régulation, réseaux métaboliques, …).
STRUCTURE DES PROTÉINES
Parmi les différents outils d’annotation fonctionnelle, attachons nous à ceux en relation avec la structure des protéines puisque cette connaissance sera d’un apport primordial pour l’interprétation des mutations responsables de maladies génétiques.
Nous pouvons distinguer plusieurs niveaux dans la description de la structure des protéines :
● La structure primaire : elle correspond à la séquence des acides aminés constituant la protéine. Il s’agit d’un assemblage linéaire des acides aminés codés par l’ARN messager.
● La structure secondaire : elle décrit un niveau structural plus complexe : les structures secondaires qui sont représentées par les repliements locaux de la protéine. Elle comporte les structures en hélices (α, 310, π, type II) et les feuillets (β parallèles et antiparallèles) et enfin les coudes (types I, II, III et γ).
● La structure tertiaire : décrit la structure tridimensionnelle de la protéine ou plus précisément d’une forme particulière que peut prendre dans l’espace la protéined’intérêt dans des conditions expérimentales données et ceci à un temps t.
● La structure quaternaire : permet de décrire les interactions entre protéines.
I Concepts
I.1 La bioinformatique
I.2 Les bases de données
II Les banques de données utiles dans le domaine de la génétique
II.1 Les « Genome Browsers »
II.2 L’annotation : outils et bases de données
II.3 Structure des protéines
II.4 Les bases de données dédiées aux maladies génétiques
II.5 Variabilité du génome humain
II.5.1 Les bases de données centrales
II.5.1.1 Les bases de données centrales dédiées aux SNPs
II.5.1.2 Les bases de données centrales dédiées aux CNVs
II.5.1.3 Les bases de données centrales dédiées aux mutations pathogènes
II.5.2 Les bases de données spécifiques de locus
III Outils informatiques utiles dans le domaine de la génétique
III.1 Prédiction des changements de stabilité des protéines
III.2 Prédiction de l’agrégation des protéines
III.3 Prédiction des régions désordonnées
III.4 Prédiction du caractère pathogène des mutations faux-sens
III.5 Prédiction du caractère pathogène des mutations introniques
IV Exemples
IV.1 Interprétation d’une mutation synonyme
IV.2 Interprétation de mutations faux-sens
……….