Caractérisation et détection d’insertions constitutionnelles de grande taille dans le cadre d’un usage médical

Caractérisation et détection d’insertions constitutionnelles de grande taille dans le cadre d’un usage médical

Méthodologies d’analyses de données de séquençage

La réduction du coût de séquençage a ouvert l’étude des variations génétiques à l’échelle de génomes individuels et de populations entières. L’alignement de reads sur le génome de référence permet de détecter des alignements incohérents. Ces incohérences traduisent d’une variabilité génétique entre l’individu séquencé et le génome de référence. L’analyse de variants est généralement composée de trois étapes : un alignement, une détection de variants (variant calling) et une annotation des variants détectés (Figure 1.11).

Alignement de séquences

Le problème de l’alignement de deux séquences peut se présenter comme l’identification du nombre minimal d’opérations d’édition (subsitution, insertion, délétion) permettant de transformer un mot en un autre. Ce problème algorithmique est au coeur de la bioinformatique et permet la comparaison de séquences nucléiques ou protéiques dont les domaines d’utilisation sont vastes. Par exemple, il rend possible la comparaison de séquences entre espèces dans le but d’inférer l’histoire phylogénique des espèces ou encore l’identification de variations génétiques. Figure 1.11 – Pipeline de détection de variations génétiques dans un contexte de diagnostic médical. Suite au séquençage, les reads sont nettoyés de leurs adaptateurs. L’alignement des reads sur un génome de référence sont rapportés dans des fichiers BAM/SAM. Des outils de détection de variants sont utilisés en se basant sur les informations fournies dans le fichier BAM. Les variants détectés sont rapportés dans des fichiers au format vcf qui sont filtrés afin de retirer les faux positifs. Les variants conservés sont annotés afin de permettre une interprétation de la part du diagnosticien et de réaliser un rapport clinique. Développé par Needleman et Wunsch en 1970, l’algorithme de programmation dynamique portant le même nom résoud le problème de l’alignement de séquences nucléotidiques et pro42 téiques de manière exacte[99]. Cet alignement qualifié de global permet d’identifier la similarité de deux séquences sur l’intégralité de leur longueur. Smith et Waterman ont proposé en 1981 un second algorithme d’alignement de séquences, en programmation dynamique également, mais qui répond à une autre problèmatique qui est celle de l’alignement local[118]. Cet alignement permet de mettre en avant des régions similaires au sein de deux séquences. Ces deux types d’alignements sont réalisés grâce à une matrice à deux dimensions, où chaque dimension représente une des deux séquences, et qui stocke les scores d’alignements de toutes les paires de préfixes des deux séquences. Une relation de récurrence permet de remplir une case donnée de la matrice en fonction de certaines de ses voisines. Le résultat est obtenu en un temps quadratique O(M,N), où M et N représentent la longueur des séquences. La complexité quadratique de ces algorithmes les rend pratiquement inutilisables dans le cas de recherche d’alignement de séquence ou de reads sur un génome. En effet, un séquençage produit plusieurs millions de reads et chaque read doit être aligné sur tout le génome. Pour résoudre cette complexité, des approches heuristiques basées sur une indexation des données et une réduction de l’espace de recherche ont été proposées. L’indexation de données permet de compresser et d’accéder rapidement à la séquence sur laquelle les reads sont alignés. Une des approches est le stockage du génome de référence sous forme de k-mers, correspondant à l’ensemble des mots de taille k contenu dans le génome. La stratégie réduisant l’espace de recherche, appelé seed and extend, identifie l’ensemble des k-mers partagés, appelés graines (seeds), entre les reads, appelés ici query, et le génome de référence, appelé ici target. Ces graines sont ensuite utilisées pour étendre (extend) l’alignement, généralement via des méthodes d’alignements reposant sur de la programmation dynamique. Cette stratégie est implémentée dans l’outil d’alignement BLAST[4]. Si elle a beaucoup été utilisée pour la recherche de similarité dans des bases de données, elle reste peu utilisée pour l’alignement de millions de reads sur un génome. Une seconde approche basée sur une Burrows-Wheeler Transform (BWT) et un FM-index permet un alignement rapide des reads sur une génome de référence, tout en limitant l’espace mémoire requis pour l’indexation du génome de référence[13, 39]. La BWT est une transformation du génome de référence qui permet sa compression. Associée au FM-index, elle permet le requêtage de mots afin de trouver le nombre d’occurrences et les positions d’un mot dans un texte. Cette stratégie s’est démocratisée et est maintenant utilisée dans la plupart des outils d’alignements de reads tels que BWA ou encore Bowtie2[76, 69]. Les alignements obtenus par ces outils sont principalement rapportés dans deux formats standardisés. Le format SAM (Sequence Alignment Map) représente les alignements sous forme de texte, alors que le format 43 BAM (Binary Aligment Map), les représente sous forme binaire[78]. Le format SAM est composé de onze champs obligatoires décrits Table 1.3. Les informations rapportées concernent les identifiants des séquences, la position d’alignement sur le génome de référence ou encore la longueur de l’alignement. Colonne Nom Description Type 1 QNAME Header du read Chaîne de caractères 2 FLAG Drapeau décrivant l’alignement Entier 3 RNAME Header de la référence Chaîne de caractères 4 POS Position de début de l’alignement sur la référence Entier 5 MAPQ Qualité de l’alignement Entier 6 CIGAR Code CIGAR Chaîne de caractères 7 MRNM Header du second reads pairés Chaîne de caractères 8 MPOS Position d’alignement du second reads pairés Entier 9 ISIZE Longueur inferrée de la distance entre les reads pairés Entier 10 SEQ Facteur du read aligné Chaîne de caractères 11 QUAL Score de qualité Phred Chaîne de caractères Table 1.3 – Description des champs d’informations du format SAM. Table adaptée de [78]. L’alignement de reads sur un génome humain rencontre des difficultés dans des régions répétées. De part la taille des reads inférieure à 200 paires de bases, la confiance d’un résultat d’alignement dans de telles régions est plus faible que dans des régions non répétées. Le problème ne se situe pas dans la difficulté à aligner la séquence mais dans la fiabilité d’avoir aligné le read sur la répétition dont il provient biologiquement. Un read peut être aligné à de multiples localisations avec le même score de similarité. Une étude du génome de référence permet de réaliser des cartes dites de faible mappabilité. Ces cartes référencient les régions où les reads d’une certaine taille peuvent être alignés à de multiples localisations avec le même meilleur score d’alignement[57]. Ces cartes peuvent être utilisées pour ignorer les alignements dans ces régions lors des analyses en aval.

Méthodes de détection des variations de structure

Comme nous l’avons vu précédemment, l’alignement est un outil puissant permettant d’identifier des régions communes entre deux séquences. La détection des variations de structure repose sur la recherche d’incohérences dans les alignements causées par de tels variants. Contrairement aux variants de structure, les SNP et les indel sont plus facilement détectables car ces événements sont entièrement contenus au sein d’un read. De ce fait, l’événement est borné par des séquences qui sont correctement alignées sur le génome de référence. Identification des points de cassures Les points de cassures peuvent être définis comme des adjacences de séquence différentes entre le génome d’un individu et celui de référence. Ces points de cassures sont des régions contenant potentiellement des variations génétiques. Ils peuvent être identifiés grâce à trois caractéristiques d’alignement de reads (Figure 1.12). Figure 1.12 – Exemple des informations obtenues par l’alignement des reads paired-end. Figure adaptée de [24]. Les reads concordants représentent des paires dont la distance entre les deux alignements respecte la distance attendue, connue à partir de la taille des fragments séquencés. Les reads discordants représentent des paires dont la distance ou l’orientation entre les deux alignements ou leurs orientations est différente de celles attendues. Les split-reads représentent des reads dont l’alignement a conduit à une ou plusieurs coupures des reads. La présence de trous (gaps) dans l’alignement est caractéristique d’une insertion ou d’une 45 délétion de petite taille. L’alignement de différentes portions d’un read à plusieurs endroits, appelé clipped ou split reads, est caractéristique d’événements de plus grandes tailles. Enfin l’utilisation de la technologie paired-end des reads courts, permet d’identifier des événements potentiels lorsque la distance ou l’orientation entre deux reads d’une même paire est différente de celle attendue (Figure 1.12). Pour les variants de type délétions, les informations utilisées peuvent être l’absence de couverture de read, la présence de split reads ou d’une distance entre les deux reads d’une paire supérieure à celle attendue (Figure 1.13). Les inversions induisent un motif très particulier où deux points de cassures sont observés au début et à la fin de l’inversion. Un read d’une paire est également mal orienté dans le cas d’une inversion (Figure 1.13). La couverture de séquençage n’est pas un élément informatif dans ce cas, puisqu’il n’y a pas eu insertion ou délétion de matériel génétique. La transposition induit deux motifs particuliers qui sont une délétion et une insertion du segment transposé à des positions différentes. Cet événement, comme à l’image de l’inversion, n’induit pas de perte ou de gain de matériel génétique. Les insertions sont l’un des types les plus difficiles à caractériser (Figure 1.13). Les insertions sont différentes selon la nature de la séquence insérée, comme nous l’avons vu précédemment. Cette hétérogénéité de nature induit des alignements différents pour chaque type d’insertion. Par exemple, les reads associés à une insertion de novo ne s’alignent pas sur le génome de référence, tandis que les reads associés à une duplication vont induire une hausse de couverture au niveau de la séquence dupliquée. Les régions répétées rendent difficiles la localisation précise des points de cassure car les reads associés à ces régions peuvent s’aligner sur l’ensemble des régions y compris la région qui contient le variant. De plus, une variation située dans une région dupliquée peut conduire à sa détection de multiple fois au sein des autre copies. Avec un génome humain qui contient plus de 50% d’éléments répétés et les variants qui ont tendance à être associés à ces éléments, la détection de points de cassure se révèle limitée avec des reads courts. La technologie de séquençage de troisième génération permet de résoudre cette limitation. La taille des reads produits par cette technologie permet à ces reads de contenir le variant en entier. Ils contiennent également plus d’informations sur le contexte génomique que les reads courts, ce qui permet de localiser les variants de manière non ambiguë (Figure 1.13). Figure 1.13 – Approches utilisées pour détecter des variants de structure à partir de l’alignement de reads. Figure adaptée de [85]. 47 Résolution fine des variants de structure Suite à la détection des points de cassure, l’objectif est de fournir la séquence du variant, d’identifier le génotype, ainsi que de calculer des métriques de qualité. Ces métriques sont utilisées pour mesurer la probabilité que le variant identifié soit un vrai variant et non pas un faux positif. Dans cette thèse nous définissons le terme résolution de séquence comme la capacité à assembler la séquence du variant. La caractérisation des SNP et des indel est faite en analysant les mismatch et les gaps dans les alignements. De ce fait, il est plus simple de récupérer la séquence alternative, présente nativement dans les reads et dans le génome de référence. Pour les variants de structures, dont la taille peut être supérieure à la taille d’un read, la méthodologie varie selon les outils de détection et le type de variant. Contrairement à la délétion, dont la séquence supprimée peut être identifiée dans le génome de référence, la résolution de la séquence des insertions nécessite une étape d’assemblage plus fastidieuse. La majorité des méthodes assemble l’insertion en partant de la séquence présente à gauche du point de cassure pour arriver à retrouver la séquence présente à droite du point de cassure, en utilisant l’ensemble ou un échantillon de reads. La principale limitation de l’assemblage se situe dans la capacité à recruter efficacement les reads qui sont associés à l’insertion. De plus, le contenu et la taille de l’insertion ne sont pas connus à l’avance et ne sont pas identifiable avec l’alignement. Il est donc impossible de savoir si l’ensemble des reads associés à l’insertion ont bien été recrutés pour l’assemblage. La technologie des longs reads a révolutionné la détection des variants de structure en surpassant les limites de la seconde génération de séquençage. De part une taille de reads de plusieurs kilobases, il est possible de s’émanciper de l’étape d’assemblage car le variant est contenu dans le read(Figure 1.13). Les limitations observées concernant la taille des reads de seconde génération restent valables pour cette troisième génération. Ainsi, la détection d’événements supérieurs à 5 kilobases se montre plus difficiles à détecter[85]. Enfin, le taux d’erreur dans les séquences limite la qualité et la précision de la séquence exacte du variant et la position reste approximtive. Représentation des variations génétiques dans les bases de données Les bases de données sont des structures capables de stocker des connaissances et avec le moins de redondance possible. Avec la démocratisation du séquençage, la quantité de données produites n’a cessé d’augmenter et le besoin de les stocker de manière efficace est devenu un champ d’étude à part entière. L’atout des bases de données, autre que le stockage, est 48 la possibilité de réaliser des requêtes dans le but de rechercher des données spécifiques. Par exemple, BLAST permet l’alignement de séquences avec des séquences contenues dans des bases de données, telles que RefSeq. Cette base de données collecte et stocke l’ensemble des données de séquences, incluant ADN, ARN et protéines, ainsi que leurs annotations fonctionnelles et strucurelles[101]. Des bases de données ont été développées pour stocker l’ensemble des variations génétiques. dbSNP est une base de données stockant les petits variants tels que les SNP, les indel ou encore les marqueurs de microsatellites (petites répétitions en tandem) de différentes espèces[116]. Une estimation en 2019 révèle que dbSNP contient plus de 675 millions de petits variants uniquement décrits chez Homo sapiens. A l’image de dbSNP, dbVar a été développée pour référencer les variants de structure de différentes espèces, mais depuis 2017, dbSNP et dbVar ne supportent plus que les données humains[70]. En 2020, ce sont plus de 6 millions de variants de structure qui sont stockés dans cette base de données provenant de 196 études. Une sous représentation des insertions au sein de dbVar est observable en comparaison au nombre de délétions rapportées. Seulement 28% des variants contenus dans dbVar correspondent à des insertions. Au sein de ces 28 % d’insertions, seulement 1.5% possèdent une séquence nucléique associée, principalement obtenue avec des technologies longs reads. Les bases de données s’agrandissent grâce à la soumission de variants de la part de chercheurs ou de personnes associées à des laboratoires de recherches privés ou publics. Chaque variant soumis nécessite un ensemble d’informations afin d’attester de son existence. Ces informations concernent l’identification de la séquence ou du type de variant, de la méthode de détection, de l’étude associée, de la population concernée ou encore du génotype. De ce fait, les bases de données sont susceptibles de contenir des faux positifs, dont les dernières estimations rapportent 2.2% de faux positifs de SNP dans dbSNP. Bien que ce chiffre soit faible, ces faux positifs peuvent conduire à des conclusions erronées lors d’études de génétique humaine[5]. Les bases de données sont donc uniquement représentatives de ce que nous avons découvert et des biais peuvent exister.

Table des matières

1 Introduction
1.1 Le génome et les variations génétiques
1.1.1 Le génome, support de l’information génétique
1.1.2 Définitions des variations génétiques
1.1.3 Origine des variations génétiques
Les cassures de l’ADN
Réparations des cassures simple brin de l’ADN
Réparations des cassures double brins de l’ADN
1.1.4 Les éléments mobiles
1.1.5 Impacts des variations génétiques
1.2 Capture de l’information génétique et assemblage du génome humain
1.2.1 Technologies de séquençages
Première génération de séquençage
Seconde génération de séquençage
Troisième génération de séquençage
1.2.2 Assemblage du génome humain de référence
Assemblage du premier génome humain
Amélioration du génome de référence
Limites du génome de référence
Annotation du génome de référence
1.3 Méthodologies d’analyses de données de séquençage
1.3.1 Alignement de séquences
1.3.2 Méthodes de détection des variations de structure
Identification des points de cassures
Résolution fine des variants de structure
Représentation des variations génétiques dans les bases de données
1.3.3 La détection de variations génétiques pour un usage médical
Analyses standards 4
Annotation des variations
Protocoles standardisés de détection de variants
Les limites de la détection de variants appliquées au domaine du diagnostic médical
1.4 Objectifs de la thèse
2 Etat de l’art : Détection de variations de structure
2.1 Algorithmes des variant callers
2.1.1 Informations utilisées pour le variant calling
2.1.2 Les variant callers génériques
Méthodes basées sur une seule information d’alignement
Méthodes basées sur une combinaison de signatures
Méthodes d’assemblage local
Les meta variant callers
2.1.3 Fichier de variations génétiques : le format vcf
2.1.4 Problèmes induits par les insertions
2.1.5 Les variant callers dédiés aux insertions
Insertions de novo
Tous types d’insertions
Elements mobiles
2.2 Evaluation des variant callers
2.2.1 Objectifs
2.2.2 Métriques
La précision
Le rappel
La moyenne harmonique (F-measure)
2.2.3 Méthodes d’évaluation des variant callers
Simulation de données
Jeux de données réels
Comparaison entre callsets
2.2.4 Etat de l’art de l’évaluation des variant callers
Evaluation des outils dans leur publication
Evaluation des outils par des études indépendantes
2.2.5 Les nouveaux callsets de références
Chaisson et al., 2019
Zook et al., 2020
2.3 Synthèse
3 Facteurs impactant la détection d’insertion
3.1 Matériel et méthodes
3.1.1 Origine des données
3.1.2 Comparaison des callsets de référence
3.1.3 Standardisation de l’annotation des insertions
Définition des types d’insertions
Méthode d’annotation des insertions
3.1.4 Localisation des insertions
3.1.5 Homologies jonctionelles
3.1.6 Rappel des variant callers basés sur les reads courts
3.2 Résultats
3.2.1 Application de l’annotation standardisée
3.2.2 Caractérisation fine des insertions du callset de référence de NA19240
Répartition des types d’insertions
Taille des insertions
Localisation des insertions
Homologies jonctionnelles
3.2.3 Comparaison des insertions entre individus
3.2.4 Rappel des variants callers courts reads
3.3 Discussion
3.3.1 Annotation des insertions
3.3.2 Caractérisation des insertions
3.3.3 Impact sur le rappel des variant callers avec reads courts .
4 Evaluation des limitations des outils de détection courts reads
4.1 Matériel et méthodes
4.1.1 Simulations
Simulation du scénario de référence
Scénario 1 : variation de la taille de l’insertion
Scénario 2 : variation du type d’insertion
Scénario 3 : variation de la taille de l’homologie jonctionnelle
Scénario 4 : variation du contexte génomique de l’insertion
Scénario 5 : Insertions réelles
4.1.2 Variant calling et méthodes d’évaluation
4.1.3 Simulation de reads longs et variant calling
4.2 Résultats
4.2.1 Facteurs impactant la détection des insertions
Identification du site d’insertion
Qualité des insertions détectées
Identification de la séquence des insertions
4.2.2 Quantités variables de faux positifs
4.2.3 Union et intersection des variant callers
4.2.4 Évaluation avec des données longs reads simulées
4.3 Discussion
4.3.1 Apport des simulations
4.3.2 Résolution de séquence
4.3.3 Amélioration de l’évaluation des variant callers
4.3.4 Pistes d’améliorations des outils
5 Amélioration du variant caller MindTheGap
5.1 Fonctionnement détaillé de MindTheGap
5.1.1 Des données de séquençage au graphe de De Bruijn
5.1.2 Détection des points de cassure : module Find
5.1.3 Identification des séquences insérées : module Fill
5.1.4 Améliorations de l’utilisation de MindTheGap apportées durant la thèse
5.2 Limites de MindTheGap
5.2.1 Retour sur l’évaluation de MindTheGap
5.2.2 Passage à l’échelle de MindTheGap
5.3 Améliorations de MindTheGap
5.3.1 Résolution de l’impact des homologies jonctionnelles
5.3.2 Origine des faux positifs
5.3.3 Réduction des faux positifs
5.3.4 Réduction de l’espace de recherche
5.4 Discussion
5.4.1 Améliorations de MindTheGap
5.4.2 Application de MindTheGap à des données cliniques
6 Conclusion et perspectives
6.1 Facteurs impactant la détection d’insertion
6.2 Evaluation des limitations des outils de détection courts reads
6.3 Améliorations du variant caller MindTheGap
6.4 Perspectives pour le diagnostic clinique
Bibliographie