Mise au point d’une technique de validation de résultat de séquençage haut débit : Base Position Error Rate
Nouvelle approche d’analyse des résultats obtenus par NGS
Les échantillons d’ADN sont préparés pour le séquençage avec le panel Ion AmpliSeq™ colon lung cancer research panel V2, puis analysés sur l’Ion Proton ™. Le logiciel « Ion Torrent Suite » aligne les séquences sur le génome de référence : Human Genome version 19 (hg19) et génère les résultats sous forme de fichier BAM (binary alignment). Ceux-ci vont être calibrés avec un second logiciel « GATK ». Tous les sites de polymorphisme, les insertions et les délétions vont se positionner.
Optimisation des séquences P
our tous les échantillons analysés, les amplicons sont rognés de 8 bases en 3’ et 5’ (extrémités très bruitées), les sites de polymorphisme nucléotidique connus SNP (single-nucleotide polymorphism) sont exclus (115 sites avec une fréquence allélique >0,01%), ainsi que les bases avec un score de qualité faible.
Calcul du bruit de fond
Nous avons effectué un comptage des nucléotides (A, T, C, G), des insertions / délétions (>2 nucléotides), sur chaque brin (brins sens ou anti sens). Cette étape est répétée pour chaque position génomique typée dans notre panel de gènes. • La profondeur (N0) est calculée en faisant la somme des A, T, G, C. présent sur une position nucléotidique. • A chaque position, un allèle majeur et un allèle mineur est défini. L’allèle majeur est celui ayant le plus grand nombre de nucléotide identique, c’est la somme du nucléotide le plus représenté.
L’allèle mineur est celui avec le plus grand nombre de nucléotide identique après celui de l’allèle majeur. • Le bruit de fond est calculé pour chacune des positions: o Le bruit de fond des SNV correspond à la profondeur moins l’allèle majeur à chaque position (E0-SNV) o Le bruit de fond des INDEL correspond à la somme des insertions et des délétions à chaque position (E0-INDEL)
Taux d’erreur
Le bruit de fond de chaque position (E0-SNV) est calculé individuellement pour chaque échantillon témoin. Puis les bruits de fond de chaque position de tous les échantillons sont additionnés. Le même calcul est réalisé pour les E0-INDEL et pour la profondeur (N0). Le calcul du taux d’erreur pour chaque position (p0-SNV ou p0-INDEL) se fait en divisant E0-SNV ou E0-INDEL par la profondeur N0 calculé précédemment. Par exemple : profondeur = 50, allèle majeur = 45, profondeur totale = 50 taux d’erreur pour cette position de base p0-SNV = 0,1 71
Filtre par biais de brins
Répartition des brins positif et négatif à chaque position de base. Pour chaque plasma testé, nous avons appliqué un filtre individuel de position de base en supprimant la position quand le biais de brin de l’allèle de référence est en dehors de l’intervalle 0,1- 0,9 (somme des nucléotides majeur sur le brin positif / somme des nucléotides majeur à cette position).
Si la valeur est en dehors de l’intervalle alors il y a un biais de brin, un des deux brins est plus représenté que l’autre, on ne prend donc pas en compte la position. De même si une mutation est observée majoritairement sur un brin, la position est supprimée. La formule utilisée pour évaluer le biais de brin est celle utilisée par le logiciel GATK ( « strand bias estimated by the symmetric odds ratio test » www.software.broadinstitute.org/gatk/ )