TREATMENT OF RAW NGS DATA CLEANING, FORMATING, ASSEMBLY, MAPPING (1)
FASTQ = fasta + qualité (format existant depuis très longtemps)
Séquence paired-end : en présence d’une séquence obtenue par la technologie Illumina, on séquence les bordures. Single : dans un seul sens et paired-end dans les deux sens (forward et reverse). Dans un fichier paired-end, cette information est indiquée dans le nom de la séquence, après le # on peut avoir /1 (forward) ou /2 (reverse) pour l’un ou l’autre des sens. La qualité est codée en code ASCII. C’est une échelle de corrélation de symboles, une manière de représenter la qualité en un seul symbole. L’ASCII est convertie en qualité Sanger et Solexa en retranchant 33 ou 64. Exemple : f = 102-64 = qualité de 38 au final : sur une échelle de 0 à 40 (entier de la probabilité postérieure que la base soit fausse).Avant on conservait beaucoup de données, on coupait à une qualité de 20, maintenant on essaye d’avoir des données fiables, on coupe à 30.
Trainings =>Data sets : raw data
Dans Data Library => Formation => Pre-processing and Mapping 2012, on trouve 20 fichiers d’entrainement. RC : riz cultivé ; RS : riz sauvage. Fichier 1 : Forward ; Fichier 2 : Reverse. 10 individus sauvages et 10 individus cultivés.
Télécharger RS6_1 et RS6_2 par exemple.
Assemblage et mapping individuel : déterminer quel individu a quel SNP
On TAG les séquences pour faciliter l’assemblage des séquences. Le TAG est une petite séquence ajoutée à l’extrémité de la séquence p our trouver l’enchainement de la séquence complète. Le dé-multiplexage consiste à assembler les fichiers séquence dans l’ordre et à supprimer le TAG.
• Rappel : une profondeur raisonnable (6X est suffisant) facilite l’assemblage des fichiers.
Contrôle de la qualité : FASTQ Control
NGS: Quality Control =>FastQC quality control checks on raw sequence data
Dans le paramétrage : Contaminants: pour ajouter un fichier spécifique de contaminants : adaptateurs de séquençage, d’index…Selection is optional : pour la détection des contaminants présents dans la banque.
Résultat du FastQ control : (voir captures)
Basics statistics : Encoding Illumina 1.5 : permet de se référer à la bonne échelle de qualité.
Per base sequence quality
Courbes : bleue : moyenne ; rouge : médianes ; barres : quartiles.
Les riz sauvages ont des graphiques réguliers dus à une bonne qualité des banques. Les riz cultivés présentent des profils plus compliqués car les machines sont moins récentes et moins de séquences donc pollution en plus grande proportion.
A la vue du graphique on coupe à 7 5 car ensuite ça devient n’importe quoi (mieux vaut garder le standard et économiser du temps de nettoyage).
Per sequence quality scores : nombre de reads en fonction de leur qualité. Le pic est artificiel (erreur introduite volontairement). Le but est de n’avoir que des séquences d’une qualité moyenne supérieure à 30.
Per base GC content : proportion de A,T,C,G. Biais en début de séquence normal, en génomique on a pas cet effet.
Per sequence GC content : en bleu : pourcentage par séquence si normal ; en rouge cas de notre séquence.Per base N content : pas de N surreprésenté donc bien. Si pic de N, problème : poussière… Si le N n’est pas traité ultérieurement ce n’est pas dramatique.
Sequence Length Distribution: 76, bon.
Sequence Duplication Levels : vu qu’il y a une croix une séquence est surreprésentée quelque part. Overrepresented sequences permet de voir quelles est cette séquence.
• Attention : la Rubisco est toujours surreprésentée dans les plantes donc c’est normal. Des manip permettent d’éliminer les séquences ribosomiques.
Formatage des données
UNTESTED TOOLS : n’a jamais tourné en production mais beaucoup d’outils pourraient être validés car très utilisés.NGS =>Illumina data =>FASTQ Groomer convert between various FASTQ quality formats : permet le transfert d’une qualité à une autre.Input FASTQ quality scores type: Illumina 1,3+ (dépend de la qualité de la séquence).On exécute un Groomer sur les deux fichiers qui sont transformé forcément en qualité Sanger car le logiciel de nettoyage est en Sanger.
Visualisation de la qualité : on a plus des petits g en codage qualité mais des grands H car on est en qualité Sanger. On renomme les fichiers pour s’y retrouver :
Fichier 1 : Forward Sanger n°4 (vérifier que c’est /1)
Fichier 2 : Reverse Sanger n°5 (vérifier que c’est /2)
Nettoyage des données : apprentissage (cleaning data)
NGS: Quality Control => Cutadapt Remove adapter sequences from Fastq/Fasta
Recherche des adaptateurs au sein des séquences sur des critères de taille et pourcentage d’homologie.On donne une valeur d’overlap à Cutadapt. Important : Minimum overlap length: 7 (si on met plus on rate des adaptateurs, 7 bases de recouvrement et 1 base d’erreur autorisée. On a donc un taux d’erreur de 0,1%). Quality cutoff: 20 : coupe la séquence jusqu’à obtenir une qualité de 20. Cutadapt ne garde pas les séquences de mauvaise qualité lors de l’analyse base par base de la qualité (- 20 à chaque base) mais garde toutes les bases qui ont une qualité supérieure ou égale à 20. Minimum length: 20 aussi lorsque la taille est inférieure à 20.