Analyses génomiques, dites de « dry-lab »
Avant toute analyse génomique, les reads obtenus après séquençage sont normalisés à l’aide du workflow Artwork (version 1) développé en interne par l’équipe de bio-informaticiens (figure 8) (Felten, 2017). Ce workflow vérifie la qualité des données issues du séquençage en réalisant dans un premier temps une étape de contrôle de la couverture des reads en profondeur sur génome de référence. Compte-tenu de l’implémentation constante de reads au sein de notre base de données génomiques, pour des questions de capacité de stockage, la couverture maximale des reads normalisés a été fixée à 30x. Par exemple, un fichier fastq.gz, d’environ 100-150X, occupe 3Go contre 1Go, une fois normalisé par Artwork. Toutefois, la couverture n’est abaissée qu’une fois les erreurs de séquençages contrôlés par l’étape de trimming. Dans le cas d’une couverture en profondeur trop faible, l’assemblage peut donner un résultat insatisfaisant et des régions du génome risquent de ne pas être couvertes, ce qui engendrerait un biais dans la recherche de variants et dans la construction de l’assemblage. Le workflow Artwork inclut ensuite une étape de trimming et mapping, dont les critères d’acceptabilité sont décrits dans le tableau 4.
Détection des évènements de recombinaison
Les bactéries présentent trois modes de recombinaison génétique : la conjugaison, la transformation ou la transduction.
J’ai cherché les évènements de recombinaison au sein des panels de souches sélectionnés. Il a été démontré que la plupart des bactéries subissent des évènements de recombinaison fréquents, des parties de leur génome sont remplacés par des séquences correspondantes d’autres bactéries (Smith et al., 1993, Brown et al., 2003, Jolley et al., 2005, Didelot et al., 2007). Dans cette optique, l’outil ClonalFrameML (Didelot & Wilson, 2015), utilisant l’inférence par le maximum de vraisemblance (Maximum Likelihood (ML)) a été utilisé avec les paramètres par défaut de la commande, sous environnement Linux. Les données générées ont ensuite été traitées avec le script R«cfml_results»(https://github.com/xavierdidelot/ClonalFrameML/blob/master/src/cfml_results.R) afin d’obtenir des représentations graphiques. Cet outil permet d’intégrer les évènements de recombinaisons homologues souvent négligé avec une inférence uniquement réalisée via le ML. Les phylogénies générées sont donc corrigées, en prenant en compte les localisations des recombinaisons pour chaque branche de l’arbre. La relation entre chaque souche et le clustering des souches sont donc vérifiés afin de produire l’arbre le plus représentatif de l’évolution et de la radiation des souches.
Recherche des gènes de virulence, de résistance et de persistance
Dans le cadre d’alertes sanitaires, ayant un impact important sur la population, il peut également être intéressant d’analyser le génome accessoire pour la recherche des gènes de virulence, de résistance et de persistance.
Grâce à l’utilisation d’un outil développé en interne, GENIAL (https://github.com/pbarbet/GENIAL), lui même utilisant l’outil de screening ABRIcate (https://github.com/tseemann/abricate). Les paramètres de BLAST utilisés sont de 80 de minimum de couverture et 90% de minimum d’identité. J’ai pu effectuer un screening sur quatre bases de données :
Recherche des 21 îlots de pathogénicité spécifiques à Salmonella (SPI : Salmonella Pathogenicity Island), à partir d’une base développée en interne, selon la littérature (Annexe 4). Les SPI sont présents dans des régions génomiques spécifiques et sont généralement acquis par transfert horizontal. L’ensemble de ces gènes de virulence permettent la colonisation de l’hôte et l’invasion systématique de Salmonella (Marcus et al., 2000).
Utilisation de la base VFDB permettant de rechercher 3200 gènes de virulence (Chen et al., 2005)
Utilisation de la base Resfinder permettant de rechercher 2700 gènes de résistance aux antibiotiques (Zankari et al., 2012). Ces gènes sont d’un intérêt particulier au genre Salmonella, particulièrement touché par de nombreuses résistances acquises. Celles-ci sont dues au phénomène de pression de sélection résultant de l’utilisation intensive des antibiotiques.
Utilisation de la base BacMet permettant de rechercher 753 gènes de résistance aux produits d’entretiens et aux métaux lourds (Pal et al., 2014). La recherche de ces gènes, peut permettre de faire le lien de cause à effet entre la présence d’une bactérie persistante dans un environnement et l’environnement en lui-même. Ces études sont d’un intérêt majeur pour L. monocytogenes, dont la présence de ce type de gènes de résistance peut conduire à la formation de biofilms.
Résultats
Séquençage
Les ADN génomiques extraits étaient de qualité suffisante pour un séquençage. Les librairies préparées en interne étaient de bonne qualité, similaire aux exigences de notre offre de marché concernant les librairies par notre prestataire. Les séquençages réalisés en interne et en externe m’ont permis d’obtenir des génomes avec une couverture comprise entre 100 et 500X. Nous n’avons donc observé aucune différence de qualité de génomes entre les séquençages réalisés en interne et en externe.
Lancement des analyses bio-informatiques
Une fois la normalisation et le contrôle qualité des reads effectués, l’ensemble des deux panels ont été analysés successivement par les deux outils iVARCall2 et SeqSphere+.
Les analyses de SNP calling nécessitent l’implémentation d’un génome de référence pour les étapes de mapping. Pour les analyses de SNP calling réalisées sur les souches de S. Agona, la référence utilisée est Salmonella enterica subsp. Enterica Agona strain 24249 (CP006876.1). Pour les souches de Listeria monocytogenes, la référence utilisée est Listeria monocytogenes strain EGD-e (AL591824.1).
L’assemblage des reads réalisé par SeqSphere est réalisé sur les mêmes souches de références que celles utilisé pour les analyses de SNP calling. SeqSphere possède des modules de phylogénie intégrés. Pour les besoins des comparaisons de méthodes, l’analyse iVARCAll2 a été poussée jusqu’à la génération d’un arbre phylogénétique, grâce à l’outil IQ-tree. Cet outil permet de déterminer le meilleur modèle d’évolution en Maximum Likelihood en fonction du panel étudié, et de calculer les bootstraps associés. Une fois les calculs menés, j’ai donc obtenu des sorties comparables pour l’ensemble des outils (fichiers FASTA, matrices de distances et arbres phylogénétiques au format newick).
Comparaison des outils
Normalisation et contrôle qualité
Lors de la rédaction du Certificat de Capacité à la Recherche, rédigé en fin de première année, des comparaisons d’arbres phylogénétiques, ont permis de mettre en évidence de grosses variations entre les outils lorsque les reads sont normalisés ou non. Les différences relevées peuvent être expliquées en partie par la taille des génomes analysés : les reads normalisés n’ont pas la même taille que des reads bruts de par les étapes de trimming et scaffolding non réalisées, ou réalisés selon des paramétrages logiciels différents. Par exemple, iVARCAll2 élimine tous les reads de taille inférieure à 50 pb alors que SeqSphere+ permet l’élimination des reads inférieurs à 200 pb (Ridom, 2019).
J’ai effectué une analyse des données FastQC des reads bruts (https://www.bioinformatics.babraham.ac.uk/projects/fastqc/). Il apparait que les reads bruts ont en moyenne une couverture de 150 à 300X. Lors des étapes de normalisation, la couverture est abaissée à 100X, permettant à la fois de gagner en taille pour le stockage, mais également rendre les analyses plus rapides. Sur l’ensemble des analyses réalisées sur les reads normalisés et non normalisés, la durée de calcul nécessaire à la sortie des données a pu être comparée. Il faut, en moyenne, cinq fois plus de temps pour obtenir les données issues de reads non normalisés.
Comparaison des matrices de distance par analyse de distance SNP et allélique
Une première comparaison d’outils repose sur la comparaison des matrices de distances obtenues. iVARCall permet une analyse SNP calling, alors que SeqSphere offre une analyse cgMLST (allélique). D’après Pightling et al., le seuil de définition d’un cluster par analyse de SNP calling est de 21 SNP de différence (Pightling et al., 2018). Cette étude a été menée par le Centre pour la sécurité alimentaire et la nutrition appliquée (CFSAN), faisant partie de l’Agence américaine des produits alimentaires et médicamenteux (FDA), sur trois pathogènes Salmonella enterica, Listeria monocytogenes et Escherichia coli. D’après les données de l’EFSA, le seuil pour les analyses cgMLST est de 7 allèles de différence, cette valeur est également utilisée par les LRUE des deux pathogènes étudiés. Cela nous amène donc à pouvoir extrapoler un facteur trois afin d’établir une corrélation entre les distances obtenues par cgMLST et SNP calling. En prenant en compte les matrices de distances obtenues lors des analyses de nos deux panels, j’obtiens un ratio du même ordre grandeur. Entre les souches épidémiques de S. Agona 2018LSAL00986 et 2018LSAL00988, il y a trois SNP de différence et un allèle de différence. Ces souches sont issues de prélèvements de surfaces réalisés le même jour dans la même usine. De même, pour le panel de Listeria, les souches A4-02-LmUBUPA et CL369-S2- LmUB3PA présentent le même ratio d’une différence de trois SNP pour un allèle. Je suis donc en mesure de faire une corrélation entre les résultats obtenus via les matrices de distance des deux outils. Afin d’observer une tendance sur l’ensemble des résultats et plus particulièrement sur les souches reliées épidémiologiquement, j’ai calculé, à l’aide d’un script linux, les moyennes des nombres de SNP ou allèles de différence au sein des clusters. Il est alors possible d’apprécier la cohérence des résultats obtenus entre l’analyse SNP calling et celle en cgMLST.
Comparaison des matrices de distances par le test statistique de Mantel
Pour les deux pathogènes, le test statistique de Mantel (Mantel & Fleiss, 1980) a été réalisé dans le but de comparer les matrices de distances obtenues via iVARCall2 et via SeqSphere. Le principe du test repose sur une régression. Plus le r2 obtenu est proche de 1, plus la corrélation entre les matrices est élevée. La comparaison entre les deux matrices est jugée satisfaisante lorsque le r2 est supérieur à 0,7, avec une P <0,05.
Salmonella Agona
La comparaison des matrices iVARCall2 et SeqSphere sur le panel de Salmonella a permis d’obtenir un r2 de 0,87 et P de 2,2e-16 (Figure 15). La corrélation des résultats est donc jugée satisfaisante, permettant de conclure que les matrices de distances obtenues entre les analyses cgMLST et SNP calling obtenues par les deux outils sont comparables.
Les variations de positionnement des souches sur les arbres phylogénétiques (Figure 17) sont principalement observées sur les souches de l’alerte sanitaire S. Agona, souches possédant enmoyenne cinq SNP de différence. Dans l’arbre généré par iVARCall2, les embranchements les plus profonds de ce cluster génomique sont soutenus par une valeur de bootstrap de 100%, alors que les boostraps au sein du cluster sont compris entre 3 et 100%, du fait de la proximité génomique de ces souches (Figure 6). La position des souches au sein du cluster est aléatoire Leur position au sein de cet embranchement peut donc être négligé. J’ai remarqué que les souches très proches génétiquement sont regroupées dans le même cluster dans les deux arbres, bien que le positionnement du cluster a changé au sein de l’arbre. Les groupes soutenus par les bootstraps les plus faibles sont ceux dont la position varie entre les arbres.
Utilisation du script « matrix2association » permettant le clustering de souches dans le cadre d’alertes sanitaires
L’application du test « matrix2association », en contexte réel d’alerte sanitaire, peut être abordée de différentes manières. Afin de répondre au mieux à cette problématique, il est nécessaire de se mettre en situation d’alertes sanitaires. Quelles sont les données dont nous pouvons disposer etles questions scientifiques associées ? En cas de déclaration d’alerte, un certain nombre de patients sont infectés par un même sérovar/ST/CC et nous devons faire une étude d’attribution de source en vue de trouver l’aliment incriminé. Cette étude est accompagnée de données épidémiologiques (département, type de produits consommés par les malades…) et parfois par une suspicion d’un aliment en particulier grâce aux enquêtes sanitaires réalisée par la MUS ou SpF. Il est également courant que nos études révèlent une contamination chez un producteur/fabriquant lié à une ancienne alerte. Il est alors nécessaire, en vue d’éradiquer la contamination, de déterminer si la source de celleci est liée à un même clone bactérien persistant ou non. Ce cas peut aussi être appliqué pour une contamination croisée entre producteur ou usines de fabrication, où des échanges de matièrespremières ont eu lieu.