Représentation parcimonieuse et procédures de tests multiples

Représentation parcimonieuse et procédures de tests multiples

Modélisation d’un spectre de mélange complexe en RMN 

Nous avons vu dans la partie précédente (tiré de Tardivel et al. (2017b)) une application peu développée des résultats sur le FWER en métabolomique. Cette application est développée plus en détail dans Tardivel et al. (2017a) qui est le second chapitre de cette partie. Cet article, accepté dans la revue Metabolomics, introduit la méthode ASICS, basée sur la procédure de tests multiples décrite dans la première partie de ce manuscrit. Cette nouvelle méthode permet d’identifier et de quantifier des métabolites. Dans l’article de Tardivel et al. (2017a), ASICS est également comparé aux méthodes actuellement utilisées dans la communauté RMN. Cet article étant dédié à un public d’experts en métabolomique, il n’a pas vocation à donner tous les détails sur la modélisation utilisée. Les détails supplémentaires sur la modélisation des spectres sont fournis dans le chapitre suivant. 

 Identification et quantification des métabolites 

La métabolomique est une science qui s’intéresse à l’identification et la quantification de métabolites (sorte de molécules) que l’on retrouve dans les cellules, les tissus, les fluides biologiques et les organismes. La technique la plus utilisée pour obtenir cette caractérisation est la Résonance Magnétique Nucléaire des protons (RMN). Chaque métabolite possède un spectre RMN qui est caractéristique. Afin d’identifier ces métabolites, les experts utilisent une bibliothèque de spectres de métabolites purs et comparent de visu ces spectres à celui du mélange biologique à analyser. Plus précisément, lorsqu’un expert veut savoir si un métabolite particulier est présent dans un mélange, il vérifie si tous les pics du spectre de ce métabolite se retrouvent dans le spectre du mélange. Cette méthode dépend donc grandement des connaissances de l’expert, notamment du nombre de spectres de métabolites qu’il connaît. Cette identification peut également être rendue délicate par la déformation des spectres (due par exemple à une variation de pH) ou par le chevauchement de certains des pics des métabolites présents dans le mélange. Voir l’article (Tardivel et al., 2017a) pour plus de détails et des références sur le sujet. La figure 3.1 est un spectre annoté par des experts en métabolomique. Figure 3.1 – Exemple de spectre annoté. On remarque que certains pics de lipides et de valine se superposent. Le spectre RMN du i eme métabolite pur est représenté par la fonction fi : [a, b] → R+ ; cette fonction est connue sur une subdivision régulière de l’intervalle [a, b], a = t1 ≤ t2 ≤ · · · ≤ ts = b. Les spectres des métabolites purs ont une aire sous la courbe égale à 1 ainsi, pour tout i ∈ [[1, p]], la fonction fi vérifie R b a fi(t)dt = 1. Les conditions d’observations de référence (fréquence, température, PH, …) des spectres de métabolites purs sont toutes identiques. Dans notre cas, la fréquence de la RMN est de 600.13 MHz, la température et le PH du métabolite pur sont respectivement de 300 K et 7.0. 

 Le mélange obtenu dans des conditions de référence 

Lorsque le mélange est obtenu dans des conditions de référence, le spectre du mélange g, non observé, est une combinaison linéaire des spectres de métabolites purs dont l’expression est la suivante g : t ∈ [a, b] 7→ X p i=1 αifi(t). Les coefficients α1, . . . , αp sont liés aux concentrations des métabolites dans le mélange (via le nombre d’atomes d’hydrogène de chaque métabolite). Le spectre du mélange est observé avec du bruit sur la subdivision régulière a = t1 ≤ · · · ≤ ts = b. Le spectre bruité du mélange est 56 modélisé de la façon suivante ∀j ∈ [[1, s]], Y (tj ) := X p i=1 αifi(tj ) + ε(tj ). Les résidus ε(t1), . . . , ε(tj ) ne sont pas homoscédastiques, la figure suivante illustre que l’écarttype des résidus a une composante multiplicative. Figure 3.2 – Représentation graphique de cinq spectres de glucose pur obtenus dans des conditions identiques. On remarque que l’amplitude du pic varie. Cette variation nous a permis de modéliser le bruit. Plus l’intensité du signal est grande plus le bruit est important. Ceci suggère que le bruit a une composante multiplicative. Ces observations nous ont permis de modéliser la loi marginales des résidus ε(t1), . . . , ε(ts) de la façon suivante ε(tj ) ∼ N (0, σ2 1 + σ 2 2 g(tj )), où σ1 et σ2 sont des paramètres connus. La structure de corrélation des résidus sera discutée dans la prochaine section. 

 Procédure de tests multiples et identification des métabolites

 Afin d’identifier les métabolites nous allons tester les hypothèses αi = 0 pour i ∈ [[1, p]]. Le i eme métabolite est identifié lorsque l’hypothèse αi = 0 est rejetée. Les experts en métabolomique souhaiteraient avoir une méthode qui ne fasse aucune mauvaise identification et qui soit capable d’identifier les métabolites ayant une très faible concentration. La FamilyWise Error Rate (FWER) est la probabilité d’avoir un faux positif. Avoir un contrôle de la FWER à un niveau bas nous permettra d’éviter d’avoir de mauvaises identifications. Par ailleurs, avoir une procédure de tests multiples « puissante » nous permettra d’identifier les métabolites ayant des concentrations faibles. Dans un premier temps nous considérons le modèle simplifié où le spectre du mélange complexe serait obtenu dans des conditions de référence. Dans ces conditions, le spectre du mélange est le vecteur gaussien suivant (Y (t1), . . . , Y (ts)) ∼ N   X p i=1 αifi(tj ) ! 1≤j≤s , Γ   . 57 Pour la loi jointe des résidus, nous avons fait l’hypothèse que les résidus étaient indépendants. Cette hypothèse est simplificatrice en effet, lorsque |tj − tj 0| est presque nulle les résidus ε(tj ) et ε(tj 0) sont corrélés. Sous cette hypothèse d’indépendance, la matrice de covariance des résidus est Γ := diag σ 2 1 + σ 2 2 X p i=1 αifi(tj ) ! 1≤j≤n . Les coefficient à estimer α1, . . . , αp étant inconnus, l’expression Pp i=1 αifi(tj ) inconnue peut être remplacée par Y (tj ) qui est connu. Ceci donne donc la matrice de covariance (aléatoire) Γ := diag( ˆ σ 2 1 + σ 2 2Y (tj ))1≤j≤n. La procédure de test pour les hypothèses Hi : αi = 0 avec i ∈ [[1, p]] est celle décrite dans l’article (Tardivel et al., 2017b). Cette procédure est basée sur l’estimateur αˆ := (X T Γˆ−1X) −1X T Γˆ−1Y. Lorsque l’hypothèse Hi est rejetée, le paramètre αi (estimé par αˆi) correspondant est significativement non nul. Les deux raisons qui nous ont motivées à faire l’hypothèse d’indépendance des résidus sont les suivantes : — Lorsque Γˆ est diagonale son inverse est très facile à obtenir, ceci simplifie le calcul de l’estimateur αˆ. — Les variances marginales var(ˆα1), . . . , var(ˆαp) ont tendance à être plus grandes lorsque les résidus sont indépendants que lorsqu’ils sont corrélés. Ainsi, en faisant l’hypothèse d’indépendance des résidus, le FWER à tendance à être plus petit que le niveau visé. 

Table des matières

Introduction
I Une nouvelle procédure de tests multiples contrôlant le FWER
1 Identification des éléments de l’active set d’un modèle linéaire gaussien
1.1 Procédures de tests multiples contrôlant le FWER
1.1.1 Procédures de tests multiples « single step »
1.1.2 Le raffinement stepdown
1.1.3 Procédures utilisant un estimateur lasso
1.2 Estimateur de l’active set
2 A powerful multiple testing procedure in linear Gaussian model
2.1 Introduction
2.2 Orthogonal-columns case
2.3 General case : when the lasso is a soft thresholded likelihood estimator
2.4 A new procedure based on the maximum likelihood estimator
2.5 Comparison with other multiple testing procedures
2.5.1 Comparison with Holm’s and generic stepdown procedure
2.5.2 Comparison with Lounici’s estimator
2.5.3 Comparison with multiple testing procedure via knockoffs
2.6 Application in metabolomics : detection of metabolites
2.6.1 Modelling
2.6.2 Real dataset
2.7 Conclusions
2.8 Appendix 1 : construction of the matrix U
2.9 Appendix 2 : Proofs
2.10 Commentaires sur la procédure de tests multiples
II Application de la procédure de tests multiples à la métabolomique
3 Modélisation d’un spectre de mélange complexe en RMN
3.1 Identification et quantification des métabolites
3.1.1 Le mélange obtenu dans des conditions de référence
3.1.2 Procédure de tests multiples et identification des métabolites
3.1.3 Le mélange n’est pas obtenu dans des conditions de référence
3.2 Étape de déformation des spectres
3.2.1 Fonctions déformantes élémentaires
3.2.2 Calcul des fonctions déformantes
4 ASICS : an automatic method for identification and quantification of metabolites in complex 1D 1H NMR spectra
III Sparsest representations of a vector in a family spanning
5 Sparsest representations of the expected value of a linear model response
5.1 High-dimensional data in metabolomics
5.2 High-dimensional linear model
5.3.1 Conditions to have a solution for P0
5.3.2 Conditions to have solution for P1
5.3.3 Conditions to have the same solution for both P1 and P0
α minimization with α ∈ (0, 1]
6 Sparsest representations and approximations of a high-dimensional linear system
6.1 Introduction
6.2 A sparsest representation
6.3 Sparsest  −approximations
6.4 Numerical experiments
6.4.1 Choice of the initial point x
6.4.2 Comparisons
6.5 Conclusion
6.6 Appendix 1 : Proofs
6.6.1 Proof of the theorem 6.1
6.6.2 Proof of the theorem 6.2 and of the proposition 6.1
6.6.3 Proof of the theorem 6.3
6.6.4 Proof of the theorem 6.4 and of the proposition 6.2
6.7 Appendix 2 : Simulations with partial random circulant matrices
6.7.1 Comparisons
6.7.2 Comments on these simulations
Conclusion et perspectives

projet fin d'etudeTélécharger le document complet

Télécharger aussi :

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *