Modélisation par analyse en composantes principale
L’Analyse en Composantes Principales (ACP) est une méthode statistique multivariée qui permet d’extraire les corrélations d’un ensemble de données à travers un ensemble de fonctions empiriques orthogonales. Elle représente une méthode descriptive permettant d’étudier les relations linéaires entre les variables sans tenir compte a priori d’une quelconque structure (Jolliffe, 2002). Ses origines historiques peuvent être remontées jusqu’aux œuvres de E. Beltrami en Italie (1873) et C. Jordan en France (1874) puisque ce sont eux qui ont formulé la décomposition en valeurs singulières (SVD) d’une matrice carrée (Cinar et al., 2007). Cependant, la première application pratique de l’ACP peut être attribuée au travail de Pearson (1901) en biologie, puis elle a été de nouveau développée et formalisée par Hotelling (1933). Ensuite, elle est devenue une technique multivariée standard (Jackson, 1991; Jolliffe, 2002). Depuis les années 1970, de nombreux travaux ont proposé d’utiliser l’ACP comme une technique de modélisation de processus à partir de laquelle un modèle ACP peut être obtenu (Kresta et al., 1991; MacGregor et Kourti, 1995; Jolliffe, 2002). Ce modèle est extrait en se basant sur un ensemble de données qui sont issues d’un fonctionnement normal. Il permet d’estimer les variables ou les paramètres du processus à surveiller. Ainsi, il peut être utilisé pour détecter les valeurs aberrantes dans les données, fournir la réconciliation de données et surveiller les écarts par rapport à un fonctionnement normal. L’utilisation fréquente de l’ACP dans plusieurs domaines s’est justifiée par sa réduction des données caractérisant un espace de grande dimension en un ensemble de composantes principales (CPs) constituant un sous-espace de dimension réduite. Cependant, l’optimalité d’une telle réduction réside dans la détermination du nombre de CPs les plus significatives. Dans ce cadre, plusieurs critères et règles ont été proposés dans la littérature afin de définir la dimension optimale d’un modèle ACP (Jackson, 1991; Valle et al., 1999; Jolliffe, 2002). D’une fa¸con non exhaustive, Jolliffe (2002) distingue selon son point de vue trois différentes catégories de critères. La première famille constitue des critères empiriques ou heuristiques dont la justification de leur utilisation, malgré quelques tentatives pour les mettre sur une base plus formelle, reste subjective comme le pourcentage de la variance totale ou également le test du coude (Scree Test) proposé par Cattell (1966). Contrairement, la fonction d’imbedded error (IE) de Malinowski (1977) et beaucoup d’autres critères qui proviennent généralement de la communauté de la chimiometrie disposent des règles de décision plus objectives et simples. Ces règles se basent souvent sur la minimisation d’un critère par rapport au nombre des CPs. En revanche, la subjectivité s’exprime dans la théorie du critère lui-même. La deuxième catégorie représente des approches basées sur une série de tests d’hypothèses qui sont généralement très sophistiquées et surestiment souvent la dimension du modèle. A titre d’exemple, Bartlett (1954) et Lawley (1956) ont développé une méthode dont le problème confronté est associé au choix des niveaux des seuils pour les différents tests. La troisième catégorie constitue des critères basés sur des méthodes de calculs intensifs comme la validation croisée qui permet le calcul d’un critère dit PRESS (Wold, 1978; Eastment et Krzanowski, 1982). En effet, ce critère est fondé sur la capacité prédictive des différents modèles ACP. Notamment, la littérature a offert une autre catégorie de critères qu’on ne peut pas ignorer. Une telle catégorie intitulée la théorie de l’information est principalement issue du domaine du traitement du signal. Notamment, elle est constituée de deux critères qui sont communément connus sous les noms d’Akaike Information Criterion (AIC, Akaike (1973)) et Minimum Description Lenght (MDL, Schwarz (1978) et Rissanen (1978)). Différemment aux principes des critères classiques, de nouvelles approches proposent de définir un modèle ACP afin d’assurer une meilleure détection et localisation des défauts plutˆot que d’offrir une meilleure approximation des données. Pour obtenir le modèle ACP le plus sensible à un défaut, Wang et al. (2004) ont proposé d’utiliser un indice prenant en compte l’amplitude minimale du défaut nécessaire afin d’assurer sa détection. Notamment, cette approche nécessite une connaissance a priori sur les défauts. Plus récemment, Tamura et Tsujita (2007) ont proposé une procédure permettant de définir la dimension d’un modèle ACP en fonction des directions des défauts afin de leur offrir une meilleure sensibilité. Puisque ces directions sont généralement inconnues, les mêmes auteurs suggèrent de définir plusieurs modèles ACP. Par conséquent, une telle approche semble être plus pratique en considérant uniquement les défauts simples. Cependant, elle est difficilement utilisable dans le cas de défauts multiples o`u un grand nombre de modèles doivent être considérés.
Analyse en composantes principales linéaire
L’ACP consiste à remplacer une famille de variables par de nouvelles variables appelées CPs. Ces dernières sont de variances maximales et non corrélées deux à deux. Elles sont des combinaisons linéaires des variables originelles. Considérons un ensemble de données collectées lors d’un fonctionnement normal du système étudié. Ces données peuvent être représentées par une matrice X = [x(1), · · · , x(N)]T ∈ R N×m (2.1) o`u N représente le nombre des observations et m représente le nombre des variables mesurées. Chaque ligne de la matrice de données X représente une observation sous forme d’un vecteur de mesures collectées à un instant k, généralement centrées
Détermination d’une structure optimale du modèle ACP
En présence de bruit de mesures, les valeurs propres nulles de la matrice de covariance indiquent l’existence de relations linéaires et les plus petites valeurs propres indiquent l’existence de relations quasi-linéaires. Le choix du nombre de CPs joue donc un rˆole crucial dans la détermination des relations de redondance entre les variables. Toutefois, un tel nombre révèle une difficulté pour sa détermination. Pour cela, de nombreux critères ont été proposés dans la littérature afin d’offrir des solutions aidant dans le choix de la structure adaptée du modèle ACP. D’une fa¸con non exhaustive, nous avons choisi certains critères parmi les plus connus afin de réaliser une étude comparative sur leurs performances.
Critères de la théorie de l’information
Dans le domaine du traitement du signal, l’identification des sources indépendantes des signaux à partir d’un nombre fini d’observations bruitées est un problème crucial. Les solutions proposées dans ce cadre peuvent être explorées avec l’ACP pour déterminer le nombre des signaux non corrélés. En effet, un vecteur d’observation peut être modélisé comme une superposition d’un nombre fini de signaux noyés dans un bruit additif. L’objectif est d’identifier ces signaux. Sous l’hypothèse que le bruit de mesures est i.i.d., sa variance doit correspondre aux plus petites valeurs propres de la matrice de covariance. En se basant sur le principe de la vraisemblance, deux critères AIC (Akaike, 1973) et MDL (Rissanen, 1978) et (Schwarz, 1978) ont été proposés puis reformulés et adaptés par Wax et Kailath (1985) afin d’être utiles dans le choix du nombre des CPs significatives.
Critères heuristiques
La qualité des estimations par ACP dépend du choix du nombre des CPs retenues ou encore de la dimension du sous-espace de représentation. Dans la suite, nous présentons d’une fa¸con non exhaustive les critères heuristiques les plus couramment utilisés.
Critère IE L’analyse factorielle est une méthode con¸cue pour résoudre les problèmes multidimensionnels. Elle exprime un ensemble de données sous forme d’une somme linéaire des produits de fonctions. Ainsi, une réduction est réalisée afin de reproduire ces données à partir d’un sous-espace composé uniquement des variables latentes significatives qui ont été déterminées par l’analyse factorielle. Notamment, la première étape dans le processus de cette méthode fait appelle à l’ACP qui consiste à déterminer ce nombre de facteurs cachés. Puisque la reproduction des données engendre nécessairement des erreurs, Malinowski (1977) distingue trois types d’erreurs qui sont : real error (RE), imbedded error (IE) et extracted error (XE). En investiguant de prés le comportement de la fonction IE, cette dernière a été considérée par Malinowski (1977) comme un critère capable de déterminer la dimension d’un modèle ACP.Chaque variable latente ou CP sélectionnée est composée des mesures observées et des erreurs. Lorsque le sous-espace constitué par les variables latentes retenues n’est pas encore optimal, le critère IE décroˆıt en ℓ en représentant par conséquent une mixture des mesures observées et des erreurs. Au point o`u toute l’information normale est extraite, IE devient croissant en ℓ en exprimant uniquement les erreurs. Une représentation convenable des données est assurée par le nombre des CPs qui correspondent `a la valeur minimale de ce critère. Bien que les critères AIC, MDL et IE soient développés dans différents domaines, ils représentent deux points communs. En effet, ils se basent uniquement sur des valeurs propres issues de la matrice de covariance des données. Par conséquent, ces dernières ne doivent pas être normalisées. En outre, le bruit de mesures des variables est supposé être indépendant et identiquement distribué.
Pourcentage cumulé de la variance
Les valeurs propres de la matrice de corrélation représentent les variances des CPs. Par conséquent, elles ont été utilisées pour définir un critère PCV dans le but est la détermination de la structure optimale d’un modèle ACP. Ce critère représente le pourcentage de la variance expliquée par les CPs retenues comme suit : PCV(ℓ) = 100 X ℓ a=1 λa Xm a=1 λa % (2.53) Généralement, on essaie de retenir avec ce critère un nombre de CPs ayant un PCV compris entre 90% et 95% ou 99% de la variance totale. La règle de décision basée sur un tel critère est très subjective, car il s’agit d’une réalisation d’un compromis entre une variance maximale et un nombre minimal de CPs retenues. Le choix de la dimension du modèle ACP est souvent difficile puisque ce critère est monotone croissant en ℓ. En outre, son efficacité `a fournir le nombre optimal des CPs dépend fortement du rapport signal sur bruit puisque la variance du bruit est inconnue.