Les étapes dites de « wet-lab »

Les étapes dites de « wet-lab »

Les étapes dites « wet-lab » correspondent à l’ensemble des activités de paillasses allant de la culture bactérienne jusqu’au séquençage (Figure 7). L’extraction d’ADN génomique est réalisée à partir de souches bactériennes pures, cultivées sur milieux non sélectifs, dont l’appartenance au genre Salmonella ou à l’espèce L. monocytogenes a été préalablement confirmée. J’ai extrait les ADN génomiques de ces souches selon le protocole du kit Wizard® Genomic DNA Purification (Promega, France). Après la réalisation de tests de validation de méthode, j’ai réalisé quelques ajustements à partir du protocole commercial.

En effet, j’ai ajusté la densité optique des solutions, et les bouillons de culture ou tampons utilisés, en vue d’obtenir à la fois une quantité et une qualité d’ADN satisfaisante pour les deux pathogènes. Ceux-ci ont conduit à la rédaction d’une instruction technique, conforme aux exigences de notre système qualité. La concentration d’ADN est mesurée avec un fluoromètre Qubit ® (Invitrogen, Etats-Unis) et le ratio de pureté est évalué avec un spectrophotomètre Nanodrop® (Thermo Scientific, Etats-Unis). Le ratio 260/280, indiquant la pureté en ADN doit être entre 1.6 et 2.0 (idéalement proche de 1,8). Le ratio 260/230, indiquant la présence de solvants, doit être entre 1,6 et 2.2 (idéalement proche de 2.0). Afin d’évaluer l’intégrité des ADN génomiques, on utilise des gels d’agarose de 0.8 %.

Les librairies sont réalisées à l’aide du kit Nextera XT® (Illumina). La quasi-totalité des souches analysées ont été séquencées par un prestataire, avec le kit 300 cycles High Output kit v2 cartridges (c’est-à-dire 800 millions de reads paired-end de 150 bases), sur un séquenceur NextSeq 500). Quelques souches des panels des deux pathogènes étudiés, ont été séquencées sur la plateforme Identypath de l’Anses, disposant d’un séquenceur MiSeq utilisant les mêmes réactifs que le prestataire. Ces séquençages réalisés en « interne » vont permettre à l’unité de démontrer ces capacités à gérer le flux analytique dans son ensemble, permettant de faire accréditer la méthode. Toutefois, le volume analytique n’est pas entièrement absorbable par la simple utilisation d’un séquenceur MiSeq, d’où la nécessité d’avoir recours à un prestataire. Par ailleurs, l’utilisation en direct du séquenceur disponible sur la plateforme, permet, en cas d’alerte sanitaire, de répondre dans un temps très réduit aux sollicitations de nos tutelles.

Analyses génomiques, dites de « dry-lab »

Avant toute analyse génomique, les reads obtenus après séquençage sont normalisés à l’aide du workflow Artwork (version 1) développé en interne par l’équipe de bio-informaticiens (figure 8) (Felten, 2017). Ce workflow vérifie la qualité des données issues du séquençage en réalisant dans un premier temps une étape de contrôle de la couverture des reads en profondeur sur génome de référence. Compte-tenu de l’implémentation constante de reads au sein de notre base de données génomiques, pour des questions de capacité de stockage, la couverture maximale des reads normalisés a été fixée à 30x. Par exemple, un fichier fastq.gz, d’environ 100-150X, occupe 3Go contre 1Go, une fois normalisé par Artwork. Toutefois, la couverture n’est abaissée qu’une fois les erreurs de séquençages contrôlés par l’étape de trimming. Dans le cas d’une couverture en profondeur trop faible, l’assemblage peut donner un résultat insatisfaisant et des régions du génome risquent de ne pas être couvertes, ce qui engendrerait un biais dans la recherche de variants et dans la construction de l’assemblage. Le workflow Artwork inclut ensuite une étape de trimming et mapping, dont les critères d’acceptabilité sont décrits dans le tableau 4.

Détection des évènements de recombinaison

Les bactéries présentent trois modes de recombinaison génétique : la conjugaison, la transformation ou la transduction. J’ai cherché les évènements de recombinaison au sein des panels de souches sélectionnés. Il a été démontré que la plupart des bactéries subissent des évènements de recombinaison fréquents, des parties de leur génome sont remplacés par des séquences correspondantes d’autres bactéries (Smith et al., 1993, Brown et al., 2003, Jolley et al., 2005, Didelot et al., 2007). Dans cette optique, l’outil ClonalFrameML (Didelot & Wilson, 2015), utilisant l’inférence par le maximum de vraisemblance (Maximum Likelihood (ML)) a été utilisé avec les paramètres par défaut de la commande, sous environnement Linux.

Les données générées ont ensuite été traitées avec le script R « cfml_results » (https://github.com/xavierdidelot/ClonalFrameML/blob/master/src/cfml_results.R) afin d’obtenir des représentations graphiques. Cet outil permet d’intégrer les évènements de recombinaisons homologues souvent négligé avec une inférence uniquement réalisée via le ML. Les phylogénies générées sont donc corrigées, en prenant en compte les localisations des recombinaisons pour chaque branche de l’arbre. La relation entre chaque souche et le clustering des souches sont donc vérifiés afin de produire l’arbre le plus représentatif de l’évolution et de la radiation des souches