Les premières recherches d’infection liée au virus de l’immunodéficience humaine (VIH)

Origine géographique et temporelle du sous-type C du VIH-1

Introduction

Les premières recherches d’infection liée au virus de l’immunodéficience humaine (VIH) au Sénégal ont été faites dans des cohortes de prostituées, parce qu’elles sont jugées être un groupe à haut risque d’infection (Meda et al, 1999; Barin et al, 1985; Van de Perre et al, 1985). Les tests sérologiques effectués montraient que ces individus étaient contaminés par le VIH-2 et une forte prévalence de ce variant était observée dans différentes villes, entre 10,0% et 38,1% versus 0,4% et 4,1% pour le VIH-1 (Kanki et al, 1992). Dès 1986, les premiers cas d’infection au VIH-1 sont reportés (Kanki et al, 1992) et, depuis, la prévalence du VIH-2 a diminué tandis que celle du VIH-1 a augmenté (Marlink, 1996; Hamel et al, 2007). L’identification à Dakar de tous les sous-types du groupe M du VIH-1 suggère de multiples introductions du virus dans ce pays (Toure-Kane et al, 2000), probablement dues aux activités de commerce ou de voyage avec les autres pays de l’Afrique. Actuellement, les infections au VIH dans l’ouest de l’Afrique, et donc au Sénégal, sont surtout causées par des souches de la forme recombinante circulante CRF02_AG (Buonaguro et al, 2007; Sankalé et al, 2000; ToureKane et al, 2000). Au Sénégal, le sous-type A est aussi très présent (Sankalé et al, 2000) et le soussous-type A3 a été caractérisé pour la première fois dans une cohorte de prostituées résidant à Dakar (Meloni et al, 2004a, 2004b). Les études sur le groupe à risque des hommes ayant des rapports sexuels avec des hommes (MSM, men having sex with men), vulnérables aux infections sexuellement transmissibles (Geibel et al, 2010), ne se sont faites que bien plus tard à cause de la stigmatisation exercée sur eux dans la plupart des pays africains (Niang et al, 2003). En raison de cette répression près de 95% d’entre eux ont des rapports sexuels avec des femmes afin de garder leur double vie secrète (Wade et al, 2005). En 2009, une étude sur la distribution de la prévalence des sous-types et des formes recombinantes du VIH-1 a montré une prévalence du sous-type C de 40% chez les MSM, alors qu’elle est à moins de 5% dans la population générale et chez les prostituées (Ndiaye et al, 2009). Ce sous-type est également très peu prévalant dans les autres pays de l’Afrique de l’ouest. Nous présentons la première étude moléculaire visant à connaître l’origine géographique et temporelle de l’ancêtre commun aux souches du sous-type C du VIH-1 circulant dans la population générale sénégalaise, mais aussi de celui circulant chez les MSM. Cette étude a plusieurs objectifs : 1) savoir s’il existe un lien épidémiologique entre les souches des MSM et celles provenant de la population générale ; 2) connaître l’origine géographique de l’épidémie du sous-type C sévissant au Sénégal et chez les MSM de ce pays ; 3) enfin, dater l’origine de l’introduction de cette épidémie chez les MSM ainsi que dans la population générale du Sénégal. Pour cela, nous utilisons des outils bioinformatiques afin d’inférer une phylogénie sur 3 081 séquences. Cette phylogénie met en évidence les Chapitre 5 127 liens épidémiologiques existant entre les souches du sous-type C du Sénégal et celles des autres pays. Par la suite, nous utiliserons uniquement les souches disponibles du sous-type C du Sénégal pour estimer la date de leur ancêtre commun, ainsi que celle de l’ancêtre commun aux souches des MSM.

Préparation des données

Les séquences sont collectées dans la base de données public du laboratoire national de Los Alamos : HIV Databases5 . Toutes les séquences disponibles du sous-type C du VIH-1, sur la région 2 253- 3 263 du génome d’HXB2, et dont la date et le pays de collecte sont connus, sont téléchargées6 . Cette région code la protéase et une partie de la transcriptase inverse. La vérification d’éventuels recombinants ou de sous-types non-C est faite par l’application web REGA HIV-1 & 2 Automated Subtyping Tool (de Oliveira et al, 2005). Les séquences non reconnues comme du sous-type C à 100% sont écartées de la suite de nos analyses. La séquence d’HXB2 (sous-type B ; numéro d’accession : K03455) sert d’outgroup pour enraciner les arbres de maximum de vraisemblance construits dans cette étude. À cette collection, 18 nouvelles séquences collectées au Sénégal entre 1996 et 2007 sont ajoutées. Elles ont été séquencées par les membres de l’équipe TransVIHMI. Seule une séquence choisie au hasard est conservée parmi celles qui sont identiques ou qui présentent un lien épidémiologique proche (par exemple dans le cas d’une transmission mère-enfant). Les séquences provenant de la base de données HIV Databases sont déjà alignées. Un alignement séquences contre profil du programme MAFFT version 6 (Katoh et al, 2002), avec la méthode L-INS-i (Katoh et al, 2005), est réalisé afin d’y ajouter les 18 nouvelles séquences. Quelques corrections manuelles sont ensuite apportées à l’aide de MEGA version 5 (Tamura et al, 2011) et tous les sites contenant un nombre excessif de gaps ( ) sont supprimés. Pour éviter tout biais éventuel dû aux mutations de résistance causées par les traitements antirétroviraux, les analyses sont faites en parallèle sur un alignement où 43 codons connus pour être associés à des mutations de résistance majeures sont supprimés (Bennett et al, 2009). Le calcul de l’arbre PhyML (Guindon & Gascuel, 2003) représentant l’histoire évolutive de la totalité des séquences est fait sous le modèle general time reversible avec une proportion de sites invariables et une loi gamma de catégorie 4 (GTR+I+Γ4) (Posada & Crandall, 2001). L’option SPR (subtree pruning and regrafting) est choisie pour explorer l’espace des arbres. Pour une meilleure estimation, tous les paramètres sont évalués et optimisés par PhyML. Enfin, les supports de branche sont déterminés par la méthode approximate likelihood ratio test (aLRT) (Anisimova & Gascuel, 2006), option 5 http://www.hiv.lanl.gov/content/index 6 Accédé le 11 avril 2011 128 Évolution du VIH : méthodes, modèles et algorithmes SH-like. Puis, un second arbre de vraisemblance est inféré sous le même modèle, mais contenant uniquement les séquences du Sénégal et celles (proches) contenues dans chaque sous-arbre ayant pour racine le nœud ancestral de deuxième génération à chaque séquence provenant du Sénégal (d’après le premier arbre). Sur ce dernier, nous estimons aussi les supports de branche obtenus par la méthode du bootstrap (100 itérations). La topologie et les résultats sont vérifiés à l’aide d’un arbre bayésien, calculé par MrBayes version 3.1 (Ronquist & Huelsenbeck, 2003). Les estimations du taux de substitution et des dates des ancêtres communs sont réalisées avec BEAST v1.6.1 (Drummond & Rambaut, 2007). Seules les 56 séquences du Sénégal sont considérées dans ces analyses. Le modèle de substitution utilisé est choisi en adéquation avec celui des arbres de maximum de vraisemblance (GTR+I+Γ4). Les estimations sont faites sous l’hypothèse de trois horloges moléculaires : stricte, relâchée en log-normal et en exponentiel (Drummond et al., 2006). Avec l’horloge moléculaire relâchée en log-normal, chaque taux de substitution suit une loi log-normale de moyenne ucld.mean et d’écart-type ucld.stdev, chaque taux de substitution de l’horloge relâchée en exponentiel suit une loi exponentielle de moyenne uced.mean, et le taux de substitution associé à l’horloge moléculaire stricte est constant et dépend du paramètre strict.clock. L’histoire démographique est calculée sous le modèle Bayesian Skyride avec l’option Time-aware (Minin et al, 2008). Quatre priors différentes sont utilisées pour les paramètres ucld.mean, uced.mean et strict.clock. La première, non informative, suit une loi uniforme entre 0 et 1. Les suivantes suivent une loi normale de moyenne (d’après Dalai et al. (2009) et Path-O-Gen v1.37 ) et d’écart-type , et respectivement. La distribution de ucld.stdev suit une loi exponentielle de paramètre 0,1 (d’après une communication personnelle avec Alexei DRUMMOND). Le nombre de générations pour les chaînes de Markov avec technique de Monte Carlo (Markov chain Monte Carlo, MCMC) est de avec un échantillonnage toutes les générations. La convergence est vérifiée avec le logiciel Tracer v1.5, tout comme l’extraction des résultats et les estimations des facteurs de Bayes.