Caractérisation et détection d’insertions constitutionnelles de grande taille dans le cadre d’un usage médical
Méthodologies d’analyses de données de séquençage
La réduction du coût de séquençage a ouvert l’étude des variations génétiques à l’échelle de génomes individuels et de populations entières. L’alignement de reads sur le génome de référence permet de détecter des alignements incohérents. Ces incohérences traduisent d’une variabilité génétique entre l’individu séquencé et le génome de référence. L’analyse de variants est généralement composée de trois étapes : un alignement, une détection de variants (variant calling) et une annotation des variants détectés (Figure 1.11).
Alignement de séquences
Le problème de l’alignement de deux séquences peut se présenter comme l’identification du nombre minimal d’opérations d’édition (subsitution, insertion, délétion) permettant de transformer un mot en un autre. Ce problème algorithmique est au coeur de la bioinformatique et permet la comparaison de séquences nucléiques ou protéiques dont les domaines d’utilisation sont vastes. Par exemple, il rend possible la comparaison de séquences entre espèces dans le but d’inférer l’histoire phylogénique des espèces ou encore l’identification de variations génétiques. Figure 1.11 – Pipeline de détection de variations génétiques dans un contexte de diagnostic médical. Suite au séquençage, les reads sont nettoyés de leurs adaptateurs. L’alignement des reads sur un génome de référence sont rapportés dans des fichiers BAM/SAM. Des outils de détection de variants sont utilisés en se basant sur les informations fournies dans le fichier BAM. Les variants détectés sont rapportés dans des fichiers au format vcf qui sont filtrés afin de retirer les faux positifs. Les variants conservés sont annotés afin de permettre une interprétation de la part du diagnosticien et de réaliser un rapport clinique. Développé par Needleman et Wunsch en 1970, l’algorithme de programmation dynamique portant le même nom résoud le problème de l’alignement de séquences nucléotidiques et pro42 téiques de manière exacte[99]. Cet alignement qualifié de global permet d’identifier la similarité de deux séquences sur l’intégralité de leur longueur. Smith et Waterman ont proposé en 1981 un second algorithme d’alignement de séquences, en programmation dynamique également, mais qui répond à une autre problèmatique qui est celle de l’alignement local[118]. Cet alignement permet de mettre en avant des régions similaires au sein de deux séquences. Ces deux types d’alignements sont réalisés grâce à une matrice à deux dimensions, où chaque dimension représente une des deux séquences, et qui stocke les scores d’alignements de toutes les paires de préfixes des deux séquences. Une relation de récurrence permet de remplir une case donnée de la matrice en fonction de certaines de ses voisines. Le résultat est obtenu en un temps quadratique O(M,N), où M et N représentent la longueur des séquences. La complexité quadratique de ces algorithmes les rend pratiquement inutilisables dans le cas de recherche d’alignement de séquence ou de reads sur un génome. En effet, un séquençage produit plusieurs millions de reads et chaque read doit être aligné sur tout le génome. Pour résoudre cette complexité, des approches heuristiques basées sur une indexation des données et une réduction de l’espace de recherche ont été proposées. L’indexation de données permet de compresser et d’accéder rapidement à la séquence sur laquelle les reads sont alignés. Une des approches est le stockage du génome de référence sous forme de k-mers, correspondant à l’ensemble des mots de taille k contenu dans le génome. La stratégie réduisant l’espace de recherche, appelé seed and extend, identifie l’ensemble des k-mers partagés, appelés graines (seeds), entre les reads, appelés ici query, et le génome de référence, appelé ici target. Ces graines sont ensuite utilisées pour étendre (extend) l’alignement, généralement via des méthodes d’alignements reposant sur de la programmation dynamique. Cette stratégie est implémentée dans l’outil d’alignement BLAST[4]. Si elle a beaucoup été utilisée pour la recherche de similarité dans des bases de données, elle reste peu utilisée pour l’alignement de millions de reads sur un génome. Une seconde approche basée sur une Burrows-Wheeler Transform (BWT) et un FM-index permet un alignement rapide des reads sur une génome de référence, tout en limitant l’espace mémoire requis pour l’indexation du génome de référence[13, 39]. La BWT est une transformation du génome de référence qui permet sa compression. Associée au FM-index, elle permet le requêtage de mots afin de trouver le nombre d’occurrences et les positions d’un mot dans un texte. Cette stratégie s’est démocratisée et est maintenant utilisée dans la plupart des outils d’alignements de reads tels que BWA ou encore Bowtie2[76, 69]. Les alignements obtenus par ces outils sont principalement rapportés dans deux formats standardisés. Le format SAM (Sequence Alignment Map) représente les alignements sous forme de texte, alors que le format 43 BAM (Binary Aligment Map), les représente sous forme binaire[78]. Le format SAM est composé de onze champs obligatoires décrits Table 1.3. Les informations rapportées concernent les identifiants des séquences, la position d’alignement sur le génome de référence ou encore la longueur de l’alignement. Colonne Nom Description Type 1 QNAME Header du read Chaîne de caractères 2 FLAG Drapeau décrivant l’alignement Entier 3 RNAME Header de la référence Chaîne de caractères 4 POS Position de début de l’alignement sur la référence Entier 5 MAPQ Qualité de l’alignement Entier 6 CIGAR Code CIGAR Chaîne de caractères 7 MRNM Header du second reads pairés Chaîne de caractères 8 MPOS Position d’alignement du second reads pairés Entier 9 ISIZE Longueur inferrée de la distance entre les reads pairés Entier 10 SEQ Facteur du read aligné Chaîne de caractères 11 QUAL Score de qualité Phred Chaîne de caractères Table 1.3 – Description des champs d’informations du format SAM. Table adaptée de [78]. L’alignement de reads sur un génome humain rencontre des difficultés dans des régions répétées. De part la taille des reads inférieure à 200 paires de bases, la confiance d’un résultat d’alignement dans de telles régions est plus faible que dans des régions non répétées. Le problème ne se situe pas dans la difficulté à aligner la séquence mais dans la fiabilité d’avoir aligné le read sur la répétition dont il provient biologiquement. Un read peut être aligné à de multiples localisations avec le même score de similarité. Une étude du génome de référence permet de réaliser des cartes dites de faible mappabilité. Ces cartes référencient les régions où les reads d’une certaine taille peuvent être alignés à de multiples localisations avec le même meilleur score d’alignement[57]. Ces cartes peuvent être utilisées pour ignorer les alignements dans ces régions lors des analyses en aval.
Méthodes de détection des variations de structure
Comme nous l’avons vu précédemment, l’alignement est un outil puissant permettant d’identifier des régions communes entre deux séquences. La détection des variations de structure repose sur la recherche d’incohérences dans les alignements causées par de tels variants. Contrairement aux variants de structure, les SNP et les indel sont plus facilement détectables car ces événements sont entièrement contenus au sein d’un read. De ce fait, l’événement est borné par des séquences qui sont correctement alignées sur le génome de référence. Identification des points de cassures Les points de cassures peuvent être définis comme des adjacences de séquence différentes entre le génome d’un individu et celui de référence. Ces points de cassures sont des régions contenant potentiellement des variations génétiques. Ils peuvent être identifiés grâce à trois caractéristiques d’alignement de reads (Figure 1.12). Figure 1.12 – Exemple des informations obtenues par l’alignement des reads paired-end. Figure adaptée de [24]. Les reads concordants représentent des paires dont la distance entre les deux alignements respecte la distance attendue, connue à partir de la taille des fragments séquencés. Les reads discordants représentent des paires dont la distance ou l’orientation entre les deux alignements ou leurs orientations est différente de celles attendues. Les split-reads représentent des reads dont l’alignement a conduit à une ou plusieurs coupures des reads. La présence de trous (gaps) dans l’alignement est caractéristique d’une insertion ou d’une 45 délétion de petite taille. L’alignement de différentes portions d’un read à plusieurs endroits, appelé clipped ou split reads, est caractéristique d’événements de plus grandes tailles. Enfin l’utilisation de la technologie paired-end des reads courts, permet d’identifier des événements potentiels lorsque la distance ou l’orientation entre deux reads d’une même paire est différente de celle attendue (Figure 1.12). Pour les variants de type délétions, les informations utilisées peuvent être l’absence de couverture de read, la présence de split reads ou d’une distance entre les deux reads d’une paire supérieure à celle attendue (Figure 1.13). Les inversions induisent un motif très particulier où deux points de cassures sont observés au début et à la fin de l’inversion. Un read d’une paire est également mal orienté dans le cas d’une inversion (Figure 1.13). La couverture de séquençage n’est pas un élément informatif dans ce cas, puisqu’il n’y a pas eu insertion ou délétion de matériel génétique. La transposition induit deux motifs particuliers qui sont une délétion et une insertion du segment transposé à des positions différentes. Cet événement, comme à l’image de l’inversion, n’induit pas de perte ou de gain de matériel génétique. Les insertions sont l’un des types les plus difficiles à caractériser (Figure 1.13). Les insertions sont différentes selon la nature de la séquence insérée, comme nous l’avons vu précédemment. Cette hétérogénéité de nature induit des alignements différents pour chaque type d’insertion. Par exemple, les reads associés à une insertion de novo ne s’alignent pas sur le génome de référence, tandis que les reads associés à une duplication vont induire une hausse de couverture au niveau de la séquence dupliquée. Les régions répétées rendent difficiles la localisation précise des points de cassure car les reads associés à ces régions peuvent s’aligner sur l’ensemble des régions y compris la région qui contient le variant. De plus, une variation située dans une région dupliquée peut conduire à sa détection de multiple fois au sein des autre copies. Avec un génome humain qui contient plus de 50% d’éléments répétés et les variants qui ont tendance à être associés à ces éléments, la détection de points de cassure se révèle limitée avec des reads courts. La technologie de séquençage de troisième génération permet de résoudre cette limitation. La taille des reads produits par cette technologie permet à ces reads de contenir le variant en entier. Ils contiennent également plus d’informations sur le contexte génomique que les reads courts, ce qui permet de localiser les variants de manière non ambiguë (Figure 1.13). Figure 1.13 – Approches utilisées pour détecter des variants de structure à partir de l’alignement de reads. Figure adaptée de [85]. 47 Résolution fine des variants de structure Suite à la détection des points de cassure, l’objectif est de fournir la séquence du variant, d’identifier le génotype, ainsi que de calculer des métriques de qualité. Ces métriques sont utilisées pour mesurer la probabilité que le variant identifié soit un vrai variant et non pas un faux positif. Dans cette thèse nous définissons le terme résolution de séquence comme la capacité à assembler la séquence du variant. La caractérisation des SNP et des indel est faite en analysant les mismatch et les gaps dans les alignements. De ce fait, il est plus simple de récupérer la séquence alternative, présente nativement dans les reads et dans le génome de référence. Pour les variants de structures, dont la taille peut être supérieure à la taille d’un read, la méthodologie varie selon les outils de détection et le type de variant. Contrairement à la délétion, dont la séquence supprimée peut être identifiée dans le génome de référence, la résolution de la séquence des insertions nécessite une étape d’assemblage plus fastidieuse. La majorité des méthodes assemble l’insertion en partant de la séquence présente à gauche du point de cassure pour arriver à retrouver la séquence présente à droite du point de cassure, en utilisant l’ensemble ou un échantillon de reads. La principale limitation de l’assemblage se situe dans la capacité à recruter efficacement les reads qui sont associés à l’insertion. De plus, le contenu et la taille de l’insertion ne sont pas connus à l’avance et ne sont pas identifiable avec l’alignement. Il est donc impossible de savoir si l’ensemble des reads associés à l’insertion ont bien été recrutés pour l’assemblage. La technologie des longs reads a révolutionné la détection des variants de structure en surpassant les limites de la seconde génération de séquençage. De part une taille de reads de plusieurs kilobases, il est possible de s’émanciper de l’étape d’assemblage car le variant est contenu dans le read(Figure 1.13). Les limitations observées concernant la taille des reads de seconde génération restent valables pour cette troisième génération. Ainsi, la détection d’événements supérieurs à 5 kilobases se montre plus difficiles à détecter[85]. Enfin, le taux d’erreur dans les séquences limite la qualité et la précision de la séquence exacte du variant et la position reste approximtive. Représentation des variations génétiques dans les bases de données Les bases de données sont des structures capables de stocker des connaissances et avec le moins de redondance possible. Avec la démocratisation du séquençage, la quantité de données produites n’a cessé d’augmenter et le besoin de les stocker de manière efficace est devenu un champ d’étude à part entière. L’atout des bases de données, autre que le stockage, est 48 la possibilité de réaliser des requêtes dans le but de rechercher des données spécifiques. Par exemple, BLAST permet l’alignement de séquences avec des séquences contenues dans des bases de données, telles que RefSeq. Cette base de données collecte et stocke l’ensemble des données de séquences, incluant ADN, ARN et protéines, ainsi que leurs annotations fonctionnelles et strucurelles[101]. Des bases de données ont été développées pour stocker l’ensemble des variations génétiques. dbSNP est une base de données stockant les petits variants tels que les SNP, les indel ou encore les marqueurs de microsatellites (petites répétitions en tandem) de différentes espèces[116]. Une estimation en 2019 révèle que dbSNP contient plus de 675 millions de petits variants uniquement décrits chez Homo sapiens. A l’image de dbSNP, dbVar a été développée pour référencer les variants de structure de différentes espèces, mais depuis 2017, dbSNP et dbVar ne supportent plus que les données humains[70]. En 2020, ce sont plus de 6 millions de variants de structure qui sont stockés dans cette base de données provenant de 196 études. Une sous représentation des insertions au sein de dbVar est observable en comparaison au nombre de délétions rapportées. Seulement 28% des variants contenus dans dbVar correspondent à des insertions. Au sein de ces 28 % d’insertions, seulement 1.5% possèdent une séquence nucléique associée, principalement obtenue avec des technologies longs reads. Les bases de données s’agrandissent grâce à la soumission de variants de la part de chercheurs ou de personnes associées à des laboratoires de recherches privés ou publics. Chaque variant soumis nécessite un ensemble d’informations afin d’attester de son existence. Ces informations concernent l’identification de la séquence ou du type de variant, de la méthode de détection, de l’étude associée, de la population concernée ou encore du génotype. De ce fait, les bases de données sont susceptibles de contenir des faux positifs, dont les dernières estimations rapportent 2.2% de faux positifs de SNP dans dbSNP. Bien que ce chiffre soit faible, ces faux positifs peuvent conduire à des conclusions erronées lors d’études de génétique humaine[5]. Les bases de données sont donc uniquement représentatives de ce que nous avons découvert et des biais peuvent exister.
1 Introduction |