Représentation parcimonieuse et procédures de tests multiples
Modélisation d’un spectre de mélange complexe en RMN
Nous avons vu dans la partie précédente (tiré de Tardivel et al. (2017b)) une application peu développée des résultats sur le FWER en métabolomique. Cette application est développée plus en détail dans Tardivel et al. (2017a) qui est le second chapitre de cette partie. Cet article, accepté dans la revue Metabolomics, introduit la méthode ASICS, basée sur la procédure de tests multiples décrite dans la première partie de ce manuscrit. Cette nouvelle méthode permet d’identifier et de quantifier des métabolites. Dans l’article de Tardivel et al. (2017a), ASICS est également comparé aux méthodes actuellement utilisées dans la communauté RMN. Cet article étant dédié à un public d’experts en métabolomique, il n’a pas vocation à donner tous les détails sur la modélisation utilisée. Les détails supplémentaires sur la modélisation des spectres sont fournis dans le chapitre suivant.
Identification et quantification des métabolites
La métabolomique est une science qui s’intéresse à l’identification et la quantification de métabolites (sorte de molécules) que l’on retrouve dans les cellules, les tissus, les fluides biologiques et les organismes. La technique la plus utilisée pour obtenir cette caractérisation est la Résonance Magnétique Nucléaire des protons (RMN). Chaque métabolite possède un spectre RMN qui est caractéristique. Afin d’identifier ces métabolites, les experts utilisent une bibliothèque de spectres de métabolites purs et comparent de visu ces spectres à celui du mélange biologique à analyser. Plus précisément, lorsqu’un expert veut savoir si un métabolite particulier est présent dans un mélange, il vérifie si tous les pics du spectre de ce métabolite se retrouvent dans le spectre du mélange. Cette méthode dépend donc grandement des connaissances de l’expert, notamment du nombre de spectres de métabolites qu’il connaît. Cette identification peut également être rendue délicate par la déformation des spectres (due par exemple à une variation de pH) ou par le chevauchement de certains des pics des métabolites présents dans le mélange. Voir l’article (Tardivel et al., 2017a) pour plus de détails et des références sur le sujet. La figure 3.1 est un spectre annoté par des experts en métabolomique. Figure 3.1 – Exemple de spectre annoté. On remarque que certains pics de lipides et de valine se superposent. Le spectre RMN du i eme métabolite pur est représenté par la fonction fi : [a, b] → R+ ; cette fonction est connue sur une subdivision régulière de l’intervalle [a, b], a = t1 ≤ t2 ≤ · · · ≤ ts = b. Les spectres des métabolites purs ont une aire sous la courbe égale à 1 ainsi, pour tout i ∈ [[1, p]], la fonction fi vérifie R b a fi(t)dt = 1. Les conditions d’observations de référence (fréquence, température, PH, …) des spectres de métabolites purs sont toutes identiques. Dans notre cas, la fréquence de la RMN est de 600.13 MHz, la température et le PH du métabolite pur sont respectivement de 300 K et 7.0.
Le mélange obtenu dans des conditions de référence
Lorsque le mélange est obtenu dans des conditions de référence, le spectre du mélange g, non observé, est une combinaison linéaire des spectres de métabolites purs dont l’expression est la suivante g : t ∈ [a, b] 7→ X p i=1 αifi(t). Les coefficients α1, . . . , αp sont liés aux concentrations des métabolites dans le mélange (via le nombre d’atomes d’hydrogène de chaque métabolite). Le spectre du mélange est observé avec du bruit sur la subdivision régulière a = t1 ≤ · · · ≤ ts = b. Le spectre bruité du mélange est 56 modélisé de la façon suivante ∀j ∈ [[1, s]], Y (tj ) := X p i=1 αifi(tj ) + ε(tj ). Les résidus ε(t1), . . . , ε(tj ) ne sont pas homoscédastiques, la figure suivante illustre que l’écarttype des résidus a une composante multiplicative. Figure 3.2 – Représentation graphique de cinq spectres de glucose pur obtenus dans des conditions identiques. On remarque que l’amplitude du pic varie. Cette variation nous a permis de modéliser le bruit. Plus l’intensité du signal est grande plus le bruit est important. Ceci suggère que le bruit a une composante multiplicative. Ces observations nous ont permis de modéliser la loi marginales des résidus ε(t1), . . . , ε(ts) de la façon suivante ε(tj ) ∼ N (0, σ2 1 + σ 2 2 g(tj )), où σ1 et σ2 sont des paramètres connus. La structure de corrélation des résidus sera discutée dans la prochaine section.
Procédure de tests multiples et identification des métabolites
Afin d’identifier les métabolites nous allons tester les hypothèses αi = 0 pour i ∈ [[1, p]]. Le i eme métabolite est identifié lorsque l’hypothèse αi = 0 est rejetée. Les experts en métabolomique souhaiteraient avoir une méthode qui ne fasse aucune mauvaise identification et qui soit capable d’identifier les métabolites ayant une très faible concentration. La FamilyWise Error Rate (FWER) est la probabilité d’avoir un faux positif. Avoir un contrôle de la FWER à un niveau bas nous permettra d’éviter d’avoir de mauvaises identifications. Par ailleurs, avoir une procédure de tests multiples « puissante » nous permettra d’identifier les métabolites ayant des concentrations faibles. Dans un premier temps nous considérons le modèle simplifié où le spectre du mélange complexe serait obtenu dans des conditions de référence. Dans ces conditions, le spectre du mélange est le vecteur gaussien suivant (Y (t1), . . . , Y (ts)) ∼ N X p i=1 αifi(tj ) ! 1≤j≤s , Γ . 57 Pour la loi jointe des résidus, nous avons fait l’hypothèse que les résidus étaient indépendants. Cette hypothèse est simplificatrice en effet, lorsque |tj − tj 0| est presque nulle les résidus ε(tj ) et ε(tj 0) sont corrélés. Sous cette hypothèse d’indépendance, la matrice de covariance des résidus est Γ := diag σ 2 1 + σ 2 2 X p i=1 αifi(tj ) ! 1≤j≤n . Les coefficient à estimer α1, . . . , αp étant inconnus, l’expression Pp i=1 αifi(tj ) inconnue peut être remplacée par Y (tj ) qui est connu. Ceci donne donc la matrice de covariance (aléatoire) Γ := diag( ˆ σ 2 1 + σ 2 2Y (tj ))1≤j≤n. La procédure de test pour les hypothèses Hi : αi = 0 avec i ∈ [[1, p]] est celle décrite dans l’article (Tardivel et al., 2017b). Cette procédure est basée sur l’estimateur αˆ := (X T Γˆ−1X) −1X T Γˆ−1Y. Lorsque l’hypothèse Hi est rejetée, le paramètre αi (estimé par αˆi) correspondant est significativement non nul. Les deux raisons qui nous ont motivées à faire l’hypothèse d’indépendance des résidus sont les suivantes : — Lorsque Γˆ est diagonale son inverse est très facile à obtenir, ceci simplifie le calcul de l’estimateur αˆ. — Les variances marginales var(ˆα1), . . . , var(ˆαp) ont tendance à être plus grandes lorsque les résidus sont indépendants que lorsqu’ils sont corrélés. Ainsi, en faisant l’hypothèse d’indépendance des résidus, le FWER à tendance à être plus petit que le niveau visé.
Introduction |