Etude informatique des effets cliniques et omiques des modulateurs de CFTR dans la mucoviscidose et recherche de nouvelles cibles
L’Analyse en Composantes Principales
L’analyse de données, quelle que soit la nature de ces dernières, demande bien souvent un processus de simplification de leur représentation afin d’en extraire des informations interprétables. Je me suis retrouvé face à cette nécessité par deux fois au cours de ma thèse, pour deux problématique très différentes. Lors de mon analyse de l’évolution des paramètres cliniques en réponse au traitement par modulateurs (étude 1), il était nécessairement de pouvoir visualiser facilement et identifier les interdépendances des 6 paramètres pris en compte. En parallèle, le coeur de la problématique lors du développement de l’algorithme rRoma (étude 4) consistait à simplifier au maximum l’information complexe contenue dans les niveaux d’expression de différents gènes aux fonctions similaires ou appartenant aux mêmes voies de signalisation. La base mathématique pour résoudre ces deux problématiques a été la même. J’ai utilisé des variations de la méthode d’ACP (Pearson 1901, Hotelling 1933). Il s’agit d’une méthode permettant de réduire la dimension des données (donc, le nombre de paramètres considérés) en conservant le maximum d’information possible, et de mettre en évidence les relations entre les différents paramètres pris en compte dans l’étude. Dans cette section, j’explique en détail le fonctionnement de la méthode ACP, dans un premier temps au moyen d’une approche simplifiée pour les non mathématiciens, et dans un second temps d’un point de vue mathématique. Ces explications permettront de mieux comprendre les analyses conduites dans les études 1 et 4 de ce manuscrit.
EXPLICATION POUR LES NON MATHÉMATICIENS
Cas simple de deux dimensions Dans un premier temps, considérons une cohorte de patients qui serait décrite par deux paramètres cliniques. La cohorte est notre jeu de données, et comme il n’y a que deux paramètres, les patients peuvent être représentés par des points dans un espace de deux dimensions, c’est-à-dire 73 un plan (l’horizontale représentant le premier paramètres clinique, et la verticale le second) (figure 14, panel de gauche) Dans une ACP, deux combinaisons des 2 paramètres initiaux sont employées, appelées composantes principales 1 et 2 (PC1 et PC2), et les données sont représentées selon ces nouveaux paramètres correspondant à de nouveaux axes horizontaux et verticaux. Les composantes PC1 et PC2 sont calculées de telle sorte que les données soient le plus dispersées possibles le long de l’axe PC1, la variance entre les points étant beaucoup plus faible selon l’axe PC2. On peut alors utiliser cette nouvelle représentation pour réduire la dimension de nos données. Si l’on décidait de représenter des points de données le long d’une droite unique tout en conservant le plus de variance possible, alors la meilleure droite correspondrait à l’axe de la PC1. On perdrait certes l’information (de la variance) liée à la PC2, mais cette dernière est par construction beaucoup plus faible. Cet exemple reste limité : passer de 2 dimension à une seule n’est pas d’une grande utilité puisque l’on peut très bien visualiser les informations en 2 dimensions. Mais il permet de poser les concepts pour les cas plus complexes pour lesquels plus de paramètres sont pris en compte, et donc pour lesquels le nombre de dimensions de départ est plus grand. Figure 14 : Visualisation de l’effet de l’ACP dans un cas à deux dimensions. Gauche : nuage de points initial. La PC1 est y est représentée en rouge et capture le maximum de variance de la distribution. La PC2 est représentée en bleu. Milieu : Représentation du nuage de points dans l’espace des deux premières composantes. Droite : Cercle de participation des dimensions initiales aux composantes principales Cas de 3 dimensions Pour mieux comprendre l’importance de l’ACP, plaçons-nous désormais dans le cas à trois dimensions, le plus simple pour lequel la réduction de dimension est utile. Reprenons l’exemple précédent, en ajoutant un troisième paramètre pour décrire les patients. Ces derniers doivent donc désormais êtres représentés par des points projetés dans un espace à trois dimension, plus difficilement lisible (figure 15 gauche). Dans ce cas, l’ACP fonctionne de la même manière qu’en deux dimensions. On oriente l’espace (on le « fait tourner ») en définissant trois nouvelles directions perpendiculaires les unes aux autres (les PC1, PC2 et PC3), de sorte à ce que la variance le long de la première direction (la PC1) soit la plus grande possible, puis que la variance restante soit la plus grande possible le long de la PC2, la PC3 capturant la variance restante non prise en compte dans les PC1 et PC2. Dans cette nouvelle représentation, la plus grande partie de la dispersion des points est visible le long des PC1 et PC2. Pour simplifier la représentation, on peut alors représenter les données en 2 dimensions, i.e. dans le plan défini par PC1 et PC2, en minimisant l’information que l’on ne prend pas en compte, c’est-à-dire celle portée par PC3 (figure 15 droite). Le pourcentage de la variance totale (donc de l’information totale) conservé par chaque PC est aussi indiqué. Ainsi, dans notre exemple, on a réalisé une réduction de dimension, de 3 à 2, en ne perdant que 15% de l’information présente initialement dans nos données. Mais l’ACP permet aussi de déterminer quels paramètres de départ sont les plus importants pour expliquer la variance présente dans les données, et si les patients se répartissent de manière similaire selon certains paramètres (c’est-à-dire si les paramètres sont corrélés entre eux). Les PCs sont en fait obtenues en réalisant une combinaison linéaire des paramètres initiaux utilisés pour décrire les données. Un paramètre jouant un rôle important dans une PC aura un coefficient élevé, à l’inverse il sera très faible si le paramètre ne contribue que faiblement à cette composante. Ces coefficients témoignent donc aussi de la corrélation des paramètres avec les PCs : si plusieurs paramètres ont des coefficients élevés pour la même PC, cela signifie qu’il sont corrélés à cette PC, et donc entre eux. L’information sur la participation des paramètres aux différentes PCs peut être visualisée dans l’espace de ces dernières, par des flèches représentant les paramètres de départ : plus une flèche est alignée avec une PC, plus elle contribue de manière importante à cette dernière (son coefficient pour cette composante est grand). Ainsi, dans notre exemple, on peut voir que les paramètres x et y participent de manière similaire et importante à la PC1, alors que le paramètre z 75 participe à la PC2. Les paramètres x et y sont donc corrélés, ils portaient une information redondante synthétisée par la PC1. Figure 15 : Visualisation de l’ACP dans le cas d’une réduction de dimension de 3 à 2 composantes. Gauche : Représentation initiale du nuage de points. Droite : Nuage de points projeté dans l’espace des deux premières composantes principales, et cercle de participation des dimensions initiales à ces dernières. Cas de plus de dimensions L’ACP est généralement appliquée à des cas plus complexes pour lesquels les patients sont décrits par un plus grand nombre n de paramètres. On définit alors n nouvelles composantes, nommées PC1 à PCn, toute perpendiculaires les unes aux autres. Elles sont organisées de sorte à ce que les points soient le plus dispersés possible le long de la PC1, puis le long de la PC2, et ainsi de suite jusque’à la PCn, qui explique le moins de variance. Dans ces cas complexes, l’ACP permet donc de grandement simplifier l’information, par exemple en ne conservant que les deux premières PCs pour pouvoir facilement visualiser les données sur un plan. De manière plus générale, la réduction de dimension facilite l’interprétation des données et aide à en tirer des conclusions. De plus, comme pour le cas à trois dimensions, on peut déterminer quels paramètres initiaux sont le plus impliqués dans la constructions des premières PCs et sont donc les plus intéressants pour l’étude. Enfin, on peut déterminer quelles corrélations existent entre les différents paramètres de départ : des paramètres participant fortement à la même PC sont corrélés, alors qu’à l’inverse deux paramètres qui ne contribuent jamais à la même PC ne le sont pas.
DÉTAILS MATHÉMATIQUES DE L’ACP
On définit un dataset constitué de n individus, décrits par p variables numériques, que l’on représente par une matrice X de taille . Dans cette matrice, la i ème colonne correspond au vecteur des observations de la variable i. L’ACP doit déterminer quelle combinaison linéaire des est associée au maximum de variance, c’est-à-dire trouver tel que soit maximal, avec et . Dans un tel cas, on a , où C est la matrice de variance covariance de X. Pour s’assurer que ce problème de maximisation ait une solution, il faut ajouter une condition sur a. La condition la plus simple est d’imposer que . Alors . On peut alors utiliser la méthode du multiplicateur de Lagrange pour trouver le maximum (Astaiza-Gómez 2020). On définit L le lagrangien tel que . Si a est un maximum de avec , alors il existe tel que L admette une différentielle nulle en . En particulier, pour tout : Or correspond à la i ème ligne de C. Ces contraintes sont donc équivalentes à : est donc un vecteur propre de C, et la valeur propre associée. De plus : . Le maximum est donc atteint lorsque est la plus grande valeur propre de C. Ainsi, la projection associée au maximum de variance correspond au vecteur propre de la matrice de variance covariance associé à la plus grande valeur propre de cette dernière. C’est la première composante principale (Jolliffe 2016). Les composantes suivantes sont obtenues de manières similaires en tant que vecteurs propres associés aux valeurs propres suivantes de la matrice de variance-covariance. La trace de la matrice de variance covariance est égale à la somme des variances de tous les paramètres initiaux. Or elle est aussi égale à la somme de ses valeurs propres, donc à la somme des variances de la projection du nuage de point dans chaque composante principale. Grâce à cette n × p xi xi a var(Xa) a = a1, a2, . . . , ap Xa = p ∑ i=1 aixi var(Xa) = aTCa ∥a∥ = 1 aT a = 1 L(x, λ) = xTCx − λ(xT x − 1) var(Xa) ∥a∥ = 1 λ0 (a, λ0) i ∈ {1,…,p} ∂L ∂ui = 2 ∂aT ∂ui Ca = 2λ0ai ∂aT ∂ui C Ca = λ0a a λ0 var(Xa) = aTCa = λ0aT a = λ0∥a∥ = λ0 λ0 77 propriété, il est possible de savoir quelle proportion de la variance totale est expliquée par chaque composante. Si l’on note la proportion de variance expliquée par la composante i, alors on a : Où sont les valeurs propres de la matrice de variance covariance de X, organisées en ordre décroissant.
L’algorithme de clustering k-means
Au cours de ma thèse, j’ai été amené à séparer des échantillons en plusieurs groupes avec des caractéristiques similaires. Pour cela, j’ai utilisé la méthode dite de k-means clustering. Nos échantillons peuvent être représentés par des points dans un espace de dimension k (par exemple le nombre de caractéristiques prises en compte dans nos échantillons). On définit dans un premier temps un nombre fixe de centroïdes, des points placés aléatoirement dans cet espace. Un processus itératif débute alors : – Chaque échantillon est associé au centroïde dont il est le plus proche – La position des centroïdes est recalculée comme étant la position moyenne des échantillons qui lui sont reliés Ces deux étapes se répètent jusqu’à convergence (i.e les centroïdes ne se déplacent quasiment plus). Les échantillons reliés au même centroïde sont alors considérés comme appartenant au même cluster.
Tests statistiques utilisés
Si les tests statistiques utilisés en biologie pour comparer des résultats entre deux groupes sont le plus souvent des tests T de Student (éventuellement appariés si les échantillons comparés proviennent des mêmes individus, mais sont prélevés à des instants différents), ces derniers présentent deux limitations majeures. D’une part, une hypothèse forte est la normalité de la distribution des données étudiées. Or il m’est arrivé de travailler avec des données ne respectant pas cette condition. D’autre part, lorsque de nombreux tests sont réalisés sur les mêmes échantillons, ils qi qi = λi ∑p j=1 λj {λ1, . . . , λp} 78 est attendu que certains d’entre eux témoignent d’une différence significative en réalité inexistante. Afin de prendre en compte ce biais, il est nécessaire de réaliser une correction pour tests multiples.
CAS OÙ L’HYPOTHÈSE DE NORMALITÉ N’EST PAS VÉRIFIÉE
Dans les cas où l’hypothèse de normalité n’était pas vérifiée, le test qui a été employé est celui dit des rangs signés de Wilcoxon. Il s’agit d’une alternative non paramétrique au test de Student pour des échantillons appariés. L’hypothèse nulle est l’égalité des médianes entre les deux groupes. On mesure pour chaque sujet de l’étude la différence entre la première et la deuxième mesure, puis les patients sont ordonnés par ordre croissant de la valeur absolue de cette différence, associant ainsi un rang à chaque patient. De même, à chaque patient est associé un signe, selon que la différence est négative ou positive. Les rangs sont ainsi « signés ». Ces rangs signés sont sommés, et l’hypothèse nulle est rejetée si la somme est trop éloignée de zéro. Ce test se basant sur les rangs, il peut être employé sans vérification des conditions de normalité.
CAS DE TESTS MULTIPLES
On utilise généralement 0.05 comme limite à un test statistique pour déterminer si une différence est significative où non. Cela signifie que l’on accepte un taux d’erreur de 5%. Ainsi, pour 100 tests statistiques différents réalisés à partir des mêmes échantillons et significatifs, en moyenne 5 sont en réalité des faux positifs. Des corrections pour tests multiples doivent ainsi être appliquées afin de limiter au maximum ces erreurs. Ici sera décrite la correction de Benjamini-Hochberg, utilisée dans ce manuscrit, mais d’autres méthodes existent, notamment basées sur des permutations multiples du jeu de données initial. La procédure de Benjamini-Hochberg consiste dans un premier temps à ordonner les différents tests réalisés par ordre croissant de p-values, et ainsi à leur associer un rang j. En notant nbp le nombre de tests réalisés au total, les p-values de chaque test sont alors modifiées par la formule suivante : On appellera en général q-value cette p-value ainsi modifiée, qui prend en compte la multiplicité des tests effectués, et on appliquera la même limite de 0.05 à partir de cette q-value pour définir si un test est effectivement significatif. pBen jaminiHochberg = min(p * nbp/j,1).
I. Introduction |