Les méthodes de compression de données
L’idée générale est de postuler que l’information contenue dans un grand nombre de variables expérimentales contrôlées (ou variables réelles) peut être concentrée dans quelques variables sous-jacentes que l’on peut définir comme des variables latentes (que l’on trouve également appelées scores dans la littérature anglo-saxonne ou « composants » ou « facteurs de régression » et même « facteurs » tout court). Ce sont ces variables latentes ou scores qui seront utilisées dans l’équation de régression.
Par exemple le point expérimental i est défini par les k variables réelles Xj décrites par le vecteur ligne x’ = (x1, x2,……, xk), ces k variables réelles sont « concentrées » en A variables latentes t : t1, t2,…., tA avec une relation linéaire entre ces nouvelles variables et les « vraies » : (t1, t2,…., tA)’ = h1[(x1, x2,……, xk)’].Ce sont ces nouvelles variables qui sont utilisées comme régresseurs dans l’équation de régression vis à vis des réponses étudiées. Si maintenant on considère un ensemble de j réponses (y1, y2,……, yj), on postule la relation : (y1, y2,……, yj)’ = h2 [(t1, t2,…., tA)’] + f’
relation dans laquelle f’ représente la partie de y qui ne peut pas être expliquée par les variables t. C’est l’ensemble des deux fonctions h1 et h2 qui forme le prédicteur désiré de y : avec f(x) = h2(h1(x)).En résumé, la compression des données d’un grand nombre de variables x en quelques variables latentes t simplifie la calibration statistique en réduisant le nombre de paramètres du modèle à estimer pour la régression entre X et Y. La compression des données permet également de simplifier l’interprétation des résultats en mettant en évidence les principales relations entre les X : les quelques premiers facteurs ti, par exemple les deux premiers, peuvent « ouvrir une fenêtre » à deux dimensions sur l’espace à k dimensions des Xj. Pour revenir aux relations entre X et Y, il est habituel de les approcher par un modèle linéaire via au minimum, un centrage des variables : à partir des variables centrées X = xobs.- et Y = yobs.- dans le cas où les systèmes d’unité sont homogènes (par ex. compositions centésimales en % pour les X, unités d’absorbance pour les Y, ce qui est le cas d’une analyse spectrale quantitative), à partir des variables centrées réduites X = (xobs.- )/x et Y = (yobs.- )/y quand les variables naturelles sont caractérisées par des unités différentes.
Remarque : ne pas oublier que ces opérations de centrage ne sont pas neutres, l’opération de centrage simple a pour conséquence d’augmenter le « poids » des variables les plus dispersées alors que le passage aux variables centrées réduites donne la même échelle de variation à toutes les variables, donc à celles qui varient très peu et qui, de ce fait, peuvent n’avoir « physiquement » aucune influence sur le phénomène étudié. Le modèle de compression linéaire des données peut alors être écrit sous la forme matricielle suivante qui est la plus générale possible :
T = XV (1) suivi de Y = TQ’ + F (2)
La méthode des moindres carrés partiels PLS
C’est le domaine des études socio-économiques qui connaît les premiers développements de la méthodes des moindres carrés partiels (PLS). L’algorithme NIPALS proposé par H.WOLD [44] est à l’origine du développement de la régression PLS. Son utilisation remonte aux années 80 avec les travaux de S.WOLD et coll. [45-46]. La méthode PLS est depuis largement utilisée, principalement dans le domaine des industries chimiques, pétrolières et agroalimentaires [47].Un grand nombre de travaux et d’ouvrages décrivent la méthode PLS dans le domaine qui est le leur. On retiendra ceux de : S.WOLD et coll. [48], de K.ESBENSEN et coll. (« Mul-tivariate Analysis in Practice » (1994)), de A.HOSKULDSSON (« Prediction Methods in science and Technology, Vol 1 Basic Theory » (1996)). Pour aborder l’utilisation de la méthode PLS en spec-troscopie infrarouge quantitative, nous retenons particulièrement l’ouvrage de H.MARTENS et T.NAES consacré à la Calibration multivariée [49] et la mise au point de M.P.FULLER et coll. [43].Comme nous l’avons exposé dans le cadre général de la régression linéaire, cette méthode prédictive est construite spécifiquement pour l’étude de la compréhension et de la description des relations souvent très complexe entre X et Y en l’absence d’un modèle théorique. Elle prend en compte la multicolinéarité, ce que ne fait pas la régression multiple classique. Cette méthode reprend la philosophie de base de la régression en composantes principales mais, dans la méthode PLS, la décomposition en composantes principales est réalisée simultanément et de manière interdépendante entre les deux tableaux X et Y : la matrice Y sert de « guide » à la décomposition de X. Reprenons sous forme schématique les différentes matrices que l’on manipule :La matrice des « scores » T [50] représente les coordonnées des individus dans le nouveau système de coordonnées défini par les composantes principales de X. Les relations entre les variables X et Y et leurs propres composantes, sont des relations linéaires matérialisées par des « matrices de passage » appelées « loadings » [50] : ce sont les coefficients de régression de chaque variable stockés dans des matrices P et Q ; P est obtenue à partir de X et Q à partir de Y ; notons E et F les matrices des résidus E = X- X préd. , F = Y- Ypréd. : le nombre optimal de facteurs (de composantes prises en compte) est celui qui conduit aux résidus les plus faibles.