Estimation de paramètres physiques à partir de leur
représentation par une base de mesures de très grande dimension
Particularité du traitement de données non-linéaires
Dans le cas d’un lien linéaire entre les données et le paramètre, une régression au sens des moindres carrés fonctionne très bien, mais ce n’est plus le cas lorsque le lien entre les données et le paramètre recherché devient non-linéaire. Par ailleurs, l’analyse en composantes principales étant une méthode de projection linéaire, elle ne permet donc pas à elle seule de prendre en compte les non-linéarités.
Régression non-lineaire
Les méthodes de régression non-linéaires classiquement utilisées dans la littérature ne sont pas utilisables pour le traitement des non-linéarités dont on ne connait pas la nature. Les méthodes communes font appel à des a priori indisponibles dans le cas des données de spectroscopie stellaire. En effet, il est souvent nécessaire de connaître le type de nonlinéarités auxquelles on fait face. Ainsi, on peut appliquer une régression aux données en les projetant sur une variété caractérisée par une fonction non-linéaire, mais dans ce cas il faut savoir quel type de fonction définit ladite variété. L’approche des courbes principales (principal curves), (Hastie & Stuetzle, 1989), permet de trouver une variété optimale pour appliquer une régression aux données, même si cette approche est limitée à des variétés 1D et repose sur la non-convergence de l’algorithme. 46 Figure 3.3 – Représentation de l’ACP à gauche, la principal curve idéale au centre et à droite dans le cas où l’on laisse l’algorithme aller trop loin et que la courbe suit le bruit. Les abcisses et ordonnées représentent les composantes de l’espace de départ. Les courbes principales, illustrées à la figure 3.3, part de la première composante principale et cherche à partir de celle-ci, itérativement, une courbe qui minimise une erreur quadratique entre les points et leurs projections. Le problème est que l’algorithme converge vers une courbe qui passe par tous les points et ne représente plus les données mais le bruit. Pour l’estimation des valeurs des paramètres, il n’est pas nécessaire de connaître la variété en tout points de l’espace et on peut se contenter d’une régression linéaire qui approxime localement cette variété. C’est ce que nous présenterons par la suite.
Régression linéaire locale
Un moyen de pallier le problème des non-linéarités est de définir une zone plus restreinte de l’espace des données où l’hypothèse de linéarité est localement respectée autour de l’échantillon que l’on souhaite traiter. Un problème commun avec le critère d’arrêt des courbes principales consiste à définir la zone locale. Si la zone est trop petite, le régresseur est trop sensible au bruit ; si la localité est définie comme trop étendue, alors on perd complètement la sensibilité aux non-linéarités. Figure 3.4 – Illustration des trois cas lors de la mise en place d’un régresseur local. Le but est d’approcher localement la courbe verte (liant les abscisses et les ordonnées) grâce aux directions de projection (flèches noires). Dans le cas de gauche, la zone considérée (celle à l’intérieur du cercle) est trop petite, dans le cas de droite, la zone considérée est trop grande, au centre, la zone permet d’avoir une droite qui, localement, autour du point bleu considéré, correspond à la courbe verte. La figure 3.4 montre trois cas où l’on essaie d’approcher localement une variété par une droite. L’objectif est de se placer dans le cas du centre, là où la zone vérifie l’hypothèse de linéarité. Pour trouver le voisinage le plus efficace, on peut se demander ce qui se passe lorsque le voisinage est trop petit. Tant que l’on a une zone suffisamment grande, la corrélation que l’on recherche est plus grande que le bruit et la suppression de peu de points a peu d’impact. Dans le cas ou le voisinage est trop petit, une modification légère dans la position d’un ou quelque points modifie beaucoup les caractéristiques du régresseur. On cherche donc le voisinage le plus petit possible, robuste à une faible modification. Une manière de trouver la taille optimale pour la zone est de définir le voisinage minimisant l’erreur de reconstruction, c’est-à-dire l’erreur moyenne entre les valeurs du paramètre des individus de la base de référence du voisinage, et leur estimation mutuelle par régression sur la direction obtenue.
Estimation basée sur les k-plus proches voisins
L’approche par la méthode des k-PPV ne fait pas appel à une méthode de régression linéaire. Dans le cadre d’une régression, l’hypothèse sous-jacente à l’emploi des k-PPV est que localement les valeurs du paramètre sont proches. Ainsi, cette méthode, par rapport aux régressions locales, traite tous les individus en définissant un voisinage suivant le même critère. On estime la valeur du paramètre de l’individu recherché 5 comme étant la moyenne des valeurs du paramètre des voisins. Lorsque l’on applique ce type de méthodes, la définition du voisinage considéré est cruciale encore une fois. On souhaite donc définir un voisinage dont les valeurs du paramètre varient peu, voisinage dont le centre de gravité est suffisamment près de l’individu que l’on souhaite identifier pour que l’on puisse les considérer comme indiscernables. Il faut aussi faire attention de ne pas considérer trop peu de voisins, faute de quoi la méthode sera très sensible aux données aberrantes (ayant une valeur pour laquelle le bruit sort des statistiques qui le définissent).
Sélection de directions pertinentes
Ce paragraphe essaie d’apporter une solution en partant du principe que le sous-espace obtenu par la méthode de projection n’est pas partout le plus pertinent (quelle que soit la zone de l’espace où la projection est appliquée). Dans la mesure où le lien entre le paramètre recherché et les données serait non-linéaire, on espère par le biais de la méthode de projection (ici l’ACP) trouver le sous-espace de dimension la plus petite contenant la variété 1D correspondant à la variation des valeurs du paramètre. Mais il n’est pas évident que cette variété s’exprime sur tous les axes en tout point de l’espace. Il est bien possible que dans certains cas, pour certaines valeurs du paramètre, cette variété soit colinéaire (ou quasi colinéaire) à l’une des directions de l’espace, ou située dans un hyper-plan du sousespace. Dans ce cas, considérer la totalité de l’espace pour l’estimation serait une erreur car on ferait entrer plus de bruit dans l’estimation. Un autre cas serait celui où pour une réalisation de x, un vecteur de données, la projection sur le sous-espace donne plusieurs 5. L’individu pour lequel on ne connaît que la valeur du vecteur de données mais pas les valeurs prises par les paramètres. 49 valeurs probables pour y. Ainsi la projection sur certaines directions va tendre à montrer que l’estimateur de y peut prendre deux valeurs Y 1 ou Y 2 différentes, avec chacune des probabilités comparables, là où d’autres directions ne seront pas ambiguës 6 . Dans ces zones du sous-espace, ignorer les solutions ambiguës permet de réduire l’erreur d’estimation. L’exemple simple de la figure 3.5 montre une réalisation de x dont la projection sur la première direction x1 a abouti à la valeur X1 7 et la projection sur la seconde direction x2 a donnée la valeur X2. Or, lorsque l’on trace la densité de probabilité conditionnelle à cette réalisation, on observe deux modes espacés sur la direction 1 et un seul mode sur la direction 2. σyˆ|X1 σyˆ|X2 Figure 3.5 – Densité normalisée de y = Y sachant une réalisation particulière de X. On observe que la valeur de y présente deux solutions suivant x1 et une seule solution suivant x2. Dans ce cas ne pas considérer x1 lève l’ambiguïté. 6. Les solutions ambiguës sont celles qui sont multiples (quasi-équiprobable) et très différentes là ou nous cherchons une solution unique 7. X1 est une réalisation de la variable x1 50 Employer, dans cet exemple, l’intégralité du sous-espace ne permettrait pas d’obtenir une estimation pertinente de la valeur de y. En effet, une estimation par moyenne empirique aboutirait à un résultat autour de 0.5 (moyenne entre 0.4 et 0.6) qui est un résultat très peu probable quelle que soit la direction que l’on regarde. Le maximum de vraisemblance donnerait aussi un résultat ambigu, 0.8 ou 0.4. Ce que nous proposons, c’est de conserver la combinaison de directions (le sous-espace, et dans cet exemple, la direction) qui minimise la variance sur y dans l’espace de projection. Ainsi, en regardant la variance sur y des plus proches voisins suivant la projection choisie, on en vient à déterminer que : σyˆ|X2 < σyˆ|X1 , (3.2) où σyˆ|X2 et σyˆ|X1 sont les variances des valeurs du paramètre sachant respectivement les réalisation X1 et X2 résultats des projections des données sur les directions x1 et x2. Ainsi, nous pouvons appliquer indifféremment une méthode des k-PPV ou de régression linéaire, mais sur un sous-espace différent pour chaque individu. Le sous-espace optimal choisi pour chaque individu sera celui qui minimise la variance empirique sur y dans le voisinage de celui-ci. On peut opposer à cette approche qu’il aurait sans doute été plus optimal de créer un sous-espace optimisé pour chaque individu en appliquant la méthode de projection (par exemple une ACP) sur le voisinage. Mais cela réduit le nombre d’individus utilisés pour le calcul du sous-espace et pose des problèmes de stabilité aux méthodes. En effet, les matrices de données se retrouvent rapidement avec beaucoup moins d’individus que la dimension de l’espace des données. De plus, le même phénomène que pour les régressions locales se produit si il y a trop peu d’individus pour la construction du sous espace et l’influence du bruit dans le choix des directions augmente.
Validation des approches
Dans cette partie nous mettrons en œuvre les différentes approches présentées plus haut. Nous les évaluerons sur des exemples, nous discuterons de leurs points sensibles et présenterons des résultats sur différents types de données.
Cas d’un problème linéaire
Prenons le cas dans lequel la variable à expliquer y est linéairement liée au vecteur de données x associé. On peut donc écrire la relation X = y T β + , où x est de dimension 4 et X contient 103 individus. Le vecteur y suit une distribution gaussienne y ∼ N(0, 1). Le vecteur des coefficients est β T = [0.7, 0.6, 0, −0.7] et le bruit ∼ N(0, 0.1 × I4). I4 est la matrice identité de dimension 4. Le problème étant posé, on peut regarder l’expression de y en fonction des différentes composantes de x dans l’espace des données brutes. Ainsi, on obtient les nuages de points représentés figure 3.6. Figure 3.6 – Expression de la variable y en fonction des différentes composantes de x (cas de l’exemple linéaire). On voit que les composantes 1, 2 et 4 sont bien corrélées avec y et la composante 3 en revanche semble n’avoir aucun lien avec y. En effet pour une valeur de x donnée on ne peut pas déduire une valeur de y à partir de la composante 3. On peut voir sur la figure 3.6 que les composantes 1, 2 et 4 présentent un lien linéaire avec y. Il est donc possible d’avoir une estimation de y connaissant les composantes 1, 2 ou 4 de x. L’ACP devrait nous permettre d’utiliser au mieux l’information contenue dans 52 Figure 3.7 – Décroissance des valeurs propres de Σ pour l’exemple linéaire du paragraphe 3.3.1. chacune des composantes. En décomposant la matrice Σ on obtient les valeurs propres présentées figure 3.7. On peut remarquer, sur la figure 3.7, la “cassure », évoquée dans la section 3.1.1, dans la décroissance des valeurs propres. Cela permet de déduire qu’un espace de dimension 1 est suffisant pour résumer les données au sens de l’ACP. Si l’on projette les données X sur l’espace construit par les vecteurs propres associés aux valeurs propres de la figure 3.7, on peut appliquer la même représentation que sur la figure 3.6, mais avec les données projetées sur les axes donnés par l’analyse en composante principale à la place des composantes de l’espace d’origine. La figure 3.8 montre une relation plus marquée entre y et le comportement de x projeté sur la première composante donnée par l’ACP. On observe de manière qualitative, pour cet exemple, que sur la représentation “PCA 1″ de la figure 3.8 le nuage de points est plus proche d’une droite marquant une relation linéaire entre x et y que cela pouvait l’être dans la figure 3.6. Les trois autres composantes de l’ACP ne montrent, quant à elles, aucune corrélation entre l’expression de x et de y. Si l’on augmente le niveau de bruit, le lien entre y et x devient moins marqué comme le montre la figure 3.9. Dans ce cas, la puissance du bruit a été augmentée de 30 dB. 53 Figure 3.8 – Expression de y en fonction des valeurs des individus projetés sur les différentes composantes de l’ACP (cas de l’exemple linéaire du paragraphe 3.3.1) Figure 3.9 – Expression de y en fonction des différentes composantes des données dans l’espace d’origine pour l’exemple linéaire décrit au paragraphe 3.3.1 avec un bruit 30 dB plus puissant que dans la figure 3.6. 54 Figure 3.10 – Décroissance des valeurs propres de Σ pour l’exemple linéaire présenté au paragraphe 3.3.1 avec un bruit 30 dB plus puissant que dans la figure 3.6. Les valeurs propres faibles voient leur valeur augmenter avec le bruit (figure 3.10) et bien que la cassure soit toujours nette, la seconde valeur propre est quatre fois plus faible que la première alors que le rapport entre les deux était de 120 lorsque l’on avait un faible niveau de bruit (cf. figure 3.7). L’ACP, moins efficace que précédemment, parvient tout de même à extraire une relation entre y et x sur sa première composante (figure 3.11). Nous pouvons à présent utiliser les différentes méthodes d’estimation présentées plus haut sur les données dans l’espace de départ (avant la projection) et dans l’espace donné par l’ACP afin d’analyser leurs comportements. Nous pouvons aussi valider de manière quantitative le traitement par les diverses méthodes de régression basées sur l’ACP que nous avons présentées. Par la suite, nous utiliserons, 103 individus comme base de référence à l’aide de laquelle nous estimerons la valeur de y pour les 102 de la base de test. ces bases sont générées de la même manière qu’au début de cette partie.
Introduction |