Algorithme de comparaison de deux séquences génétiques

Emergence de la bio-informatique :

Il est difficile d’appointer où et quand la bio-informatique a vraiment apparus comme terme et comme discipline, es ce que l’histoire commence en Autriche par la publication de Gregor Mendel des lois de l’hérédité à partir des études faites sur les pois en 1866 (la naissance de la génétiques) ? [9], ou bien quand le concept du gène est inventé en 1905 par Johannsen ? Après l’identification de l’acide désoxyribonucléique (ADN) comme support matériel de l’information génétique par O. Avery, C. McLeod et M. McCarty en 1944 ? Ou par la découverte du modèle en double hélice de l’ADN par Watson, Crick et R. Franklin en 1953 ? [3,12], et pourquoi pas allant jusqu’à l’association entre tri-nucléotides et acides aminés déchiffrée complétement en 1966 par Khorana, et la découverte des exons et introns en 1977 ? Sans oublier qu’en revenant un peu plus tard au 1956 l’établissement de la séquence en acides aminés de l’insuline par F.Sangen, et la construction de l’arbre phylogénétique par Fitch et Margoliash en 1967, et le programme d’alignement global de Needleman et Wunsch réalisé en 1970, peuvent être aussi considéré comme un bon point de départ pour la bioinformatique [3,9].

Le séquençage en masse débute avec l’apparition de la séquence de chromosome de la bactérie Haemophilus Influenzae en 1995, et la séquence des chromosomes de la levure Saccharomyces Cerevisiae en 1996, et est accéléré avec l’apparition de nombreuses séquences de procaryotes et de nombreux micro-organismes pathogènes, et de génomes d’eucaryotes [3]. Les progrès en biologie conduisent vers le développement de plusieurs nouvelles méthodes en bioinformatique, citons parmi ces méthodes la comparaison et la prédiction dans l’analyse des structures macromoléculaires à partir des années 1950, le séquençage depuis les années 1970 qui englobe l’alignement des séquences et la recherche des similarités dans les banques de données, méthodes d’annotation et de classification fonctionnelle sur les génomes à partir des années 1990, les premières cartes génétiques du génome humain sont publiées par J.Weissenbach et D.Cohen entre l’année 1992 et l’année 1996, les analyses multivariées sur les transcriptomes depuis 1997, et l’analyse de graphes sur les interactomes presque à partir des années 2000, NIH et Celera Genomics annoncent chacun l’obtention de 99% de la séquence du génome humain en Juin 2000, et la fin du séquençage du génome humain est annoncée en 14 Avril 2003, quand les années 2010 vont vers la fin du « tout gène » [5, 6].

Tous ses avancements jouent un rôle important dans l’émergence du nouveau secteur scientifique connu aujourd’hui par la « Bioinformatique », mais l’utilisation du terme est documentée pour la première fois en 1970 dans une publication de Paulien Hogeweg et Ben Hesper (Université d’Utrecht, Pay-Bas) en référence à l’étude des processus d’information dans les systèmes biotiques. [10] C’est toute un monde la bioinformatique, qui se développe jour après jour et avance très rapidement, les dernières années connaissent la découverte de plusieurs nouvelles applications conduisant vers une révolution à la biologie, l’ADN est la molécule centrale du cercle qui comprend tous types de travaux dans ce domaine, puisqu’il est le support de l’information génétique, donc il faut détailler pour expliquer comment porte-t-il l’information génétique, et comment exprimer cette information par autre moyens que l’ADN.

La molécule d’ADN et l’information génétique :

Le génome est l’ensemble du matériel génétique, il est composé d’un ou plusieurs chromosomes (un seul chromosome circulaire chez les Procaryotes comme les bactéries, et plusieurs chromosomes chez les Eucaryotes) qui peuvent être vu comme support de l’information responsable du fonctionnement des cellules (le métabolisme) [1,3]. On allant plus profondément, le chromosome lui-même est constitué d’une macromolécule (i.e., molécule composée de plusieurs molécules) qui se recopie et s’enroulent pour pouvoir tenir dans le noyau de la cellule, cette macromolécule est l’ADN [7,12], les segments d’ADN conditionnant la transmission d’un caractère héréditaire déterminé sont appelées gènes, cette chronologie est représentée dans la Figure-1.1-. [1] Figure -1.1- : Molécule d’ADN dans la cellule vivante. [5]

L’ADN est un très long filament formé de deux chaines qui se font face et sont enroulées en double hélice, l’unité de base de chaque brin de l’ADN est le nucléotide constitué par un groupement phosphate, un sucre, et une des quatre types de bases azotées : Adénine ‘A’, Thymine ‘T’, Cytosine ‘C’, Guanine ‘G’, un brin peut donc être décrit comme une suite de nucléotides, et les deux brins sont liés par des liaisons faibles (type hydrogène et connus sous le nom des premiers inventeurs de cette structure double hélice ; liaison de Watson et Crick) qui unissent les bases azotées suivant deux appariements (A avec T et G avec C) par rapport à leurs catégorisation physico-chimique (A et G a la catégorie des Purines, G et T a la catégorie des pyrimidines). [7,12] Figure -1.2- : Structure doubles hélices de l’ADN. [12] L’information génétique est transmise des parents à leurs descendants, elle est utilisée pour la synthèse des protéines et lors de la formation d’un embryon. Elle est portée par l’ADN et donc constituée par l’ordre des nucléotides, ou cette suite de nucléotides le long d’un brin ressemblent à un message écrit dans un code à quatre lettres (ACCTGAAAT…), la suite de lettres (ordre et nombre de nucléotides) constitue une séquence spécifique à chaque être vivant. Le gène est un segment d’ADN qui porte une séquence particulière de nucléotides correspondant à un ou plusieurs caractères héréditaires. [5,12]

Interprétation des résultats :

Au point de vue informatique il est remarquable que la réalisation d’une recherche dans les séquences génétique fait appel aux méthodes de traitement de texte, une séquence génétique ou une chaine de caractères génétique, est équivalente à une chaine de caractères simple en informatique, c’est une séquence de lettres en ignorant les propriétés physiques et chimiques (ces propriétés sont inclus comme paramètres codés à l’algorithme). [54] Malgré les formats différents de chaque base de données elles restent des documents textuelles, donc l’idée principale est la même, balayer le corpus texte après texte et fouiller le texte (ou la base de données) séquence après séquence, et à partir de chaque base de données l’algorithme ordonne les séquences par rapport à leurs relation ou similitude avec la séquence requête, la requête introduite peut être l’identifiant d’une séquence reconnue, une pathologie, un auteur ou n’importe quel donnée de la partie descriptif de la séquence, comme elle peut être une nouvelle séquence à connaitre ou à comparer avec d’autres séquences, donc un code génétique.

Au point de vue pratique il est difficile de savoir tous sur le taux de connaissances apportées par ce genre d’outils, a quoi sert la réalisation d’une recherche de similitudes entre séquences ? Et quel avantage donne la découverte d’existence d’un gène dans un génome ou espèce reconnu ? Au côté médicale quel sont les biens fait de ces applications et comment la médecine utilise ces outils ? Le besoin biologique est absolument vaste et illimité, dont le biologiste fait des recherches puissantes afin de savoir tous sur le gène humain ou d’autres espèces, mais dans le cadre d’informatique biomédicale on doit s’intéresser par le besoin du médecin non pas celui d’un biologiste, et on doit développer des applications qui sert à aider le médecin dans son diagnostic ou traitement, il faut donc cibler des problématiques au point de vus médical, et j’ai choisi de demander l’aide d’un médecin biologiste grâce à son forte relation avec la biologie et large connaissance sur les pathologies héréditaire (ou d’origines génétiques), la méthode était d’exposer les outils et les exemples vus au préalable pour l’expert, et il a vraiment tout donner comme aide et informations trop riches, à partir de mes discutions avec lui j’ai pu connaitre quelques problématiques à résoudre, et il a proposé plusieurs idées qui peuvent être traduite vers des projets de recherche très utiles dans notre domaine.

Conclusion générale

Les bases de séquences génétiques sont aujourd’hui une masse très grandes de données de type String, riche en informations dont un traitement sur ces dernier permet d’extraire de larges connaissances dans les deux domaines biologiques et médical, elles font le sujet du jour et la dernière technologie en phase d’exploration. La recherche dans les banques de séquences génétique se base sur l’opération d’alignement de séquences, la méthode la plus classique était la méthode graphique ‘Dot Plot’ qui donne des résultats interprétables visuellement, puis les méthodes plus précises et sensibles comme l’alignement global et local en utilisant la programmation dynamique. On a pu prouver théoriquement et pratiquement que la méthode locale est meilleure que la méthode globale, mais les deux ne peuvent pas être utilisées avec les banques de séquences puisqu’elles seront très couteuses en terme du temps grâce à la complexité de leurs calculs, ils ne sont utile qu’avec des paires de séquences à comparer, la solution était l’utilisation des heuristiques (FASTA et BLAST) qui rend le balayage de toute la base de séquences rapide en sacrifiant un peu de sensibilité, et en se basant sur la notion de mots.

On a pu à travers ce projet introduire cette discipline, et discuter les différentes fonctionnalités proposé par la bioinformatique pour résoudre les problèmes posés en biologie, on était beaucoup plus intéressé par le coté informatique et algorithmique, pour savoir comment traiter ce nouveau type de données qui diffère absolument des autres types qu’on a l’habitude d’utiliser, des formats différentes traités d’une manière aussi différente. On a utilisé l’API BioJava et comme résultats on a réalisé une interface graphique permettant d’aligner deux séquences génétiques par les deux méthodes globale et locale en implémentant les algorithmes Needleman & Wunsch et Smith & Waterman, avec affichage du score de l’alignement, temps d’exécution, taille des séquences alignées et la représentation des lettres alignées. L’autre fonctionnalité est la traduction d’une séquence d’ADN en ARN puis en Protéine, et l’affichage d’une séquence génétique. La troisième fonction était le traitement d’un échantillon de format FASTA, il permet d’afficher ce dernier (sous forme des descriptions des séquences qu’il contient, plus le nombre de ces séquences), et permet aussi d’ajouter une nouvelle séquence au fichier.

Table des matières

Introduction générale
Chapitre I : L’information génétique
Préambule
Partie I : Notions de biologie
Emergence de la bioinformatique
La molécule d’ADN et l’information génétique
Atres formats biologiques pour l’information génétique
Du génotype au phénotype
Partie II : Notions de bioinformatique
Séquences biologiques
Banques de données biologiques
Qu’es ce qu’une banque de données génétique ?
Notes historiques
Types de banques de données génétiques
Banques de données utiles en génétique
Domaines d’application
Conclusion
Chapitre II : Etat de l’art
Partie I : Outils bioinformatique testés
NCBI
UniProt
EMBL-EBI
SMS
Interprétation des résultats
Avis d’expert
Partie II : Recherche de similitudes entre deux séquences
Alignement de séquences
Matrices de substitution
Matrice pour l’ADN
Matrice pour les protéines
Choix de la matrice
Méthodes d’alignement global
Méthodes d’alignement local
Algorithme de comparaison de deux séquences génétiques
Méthode Dot Plot
Algorithme de Needleman & Wunsch
Algorithme de Smith & Waterman
Programme de comparaison avec les banques de séquences
Algorithme FASTA
Algorithme BLAST
Conclusion
Chapitre III : Application
Préambule
Outils et langage utilisés
Langage Java
Plateforme NetBeans
API BioJava
Présentation de données
Format de fichier ‘FASTA’
Matrice de substitution
Implémentation
Représentation de l’IHM
Exemple
Conclusion
Conclusion générale
Références bibliographiques