L’ANALYSE ENCOMPOSANTES PRINCIPALES (ACP) » CLASSIQUE «
L’ACP permet d’analyser tout tableau de données statistiques X(n, p) (n lignes, p colonnes) représentant n individus décrits par p variables quantita- tives. Son domaine d’application est donc très vaste. Ainsi si l’ensembe des individus doit être homogène (ensemble d’entreprises ou ensemble de per- sonnes par exemple), l’ensemble des variables peut être hétérogène (chiffre d’affaire, nombre d’employés pour une entreprise ou taille, poids d’un indi- vidu par exemple).Afin de définir des distances entre individus et des distances entre variables, on munit les espace Rp et Rn de métriques euclidiennes (c’est à dire associées2, dont le terme général de la diagonale est l’inverse de la variance des variables. Nous reviendrons sur ce choix important au paragraphe 1) 11)1 étant le sous – espace vectoriel orthogonal à E1 pour la métrique M ; ∀ Xi ∈ E, on a Xi = αi + βi, αi ∈ E1, βi ∈ E⊥peut aussi s’interpréter comme l’inertie de la projection du nuage N (I) sur E1. On désignera IEmanière que l’inertie portée par cet espace soit la plus grande possible.La principale opération de l’ACP est de déterminer les axes principaux d’iner- tie du nuage autour de son centre de gravité. Ce sont les axes qui prennent le mieux en compte la dispersion du nuage au sens de la distance dM définie sur Rp. Ces axes principaux d’inertie appelés axes factoriels permettent dereprésenter les points du nuage sur des espaces de dimension réduite. Par exemple, on obtiendra une représentation plane du nuage en projetant or- thogonalement au sens de la métrique M tous les points sur le plan principal d’inertie, c’est-à-dire sur l’espace de dimension 2 qui porte le plus d’inertie.
Soit G l’espace supplémentaire M – orthogonal à ∆υ dans Fk : Fk = G ⊕ ∆V et soit Ek = Ek−1 ⊕ ∆υ. On a IFdu nuage projeté sur Ek soit maximum. D’après le théorème de Huygens, Ek contient nécessairement le centre de gravité O du nuage.Nous donnons maintenant deux théorèmes qui vont permettre de traiter le problème en plusieurs étapes.Théorème 1 d’inclusionSi Ek−1 est un sous – espace vectoriel optimal de dimension k − 1, alors la recherche d’un sous – espace vectoriel optimal de dimension k peut se faire parmi l’ensemble des sous – espaces vectoriels de dimension k contenant Ek−1.DémonstrationQuel que soit l’espace E contenant F, on a une décomposition E = F ⊕ ∆υ avec ∆υ ⊥ F donc IE = IF + I∆υ : IF étant constant, minimiser IE revient à minimiser I∆υ.A partir de ces théorèmes, on ramène donc le problème de l’ACP au problème suivant :• Etude de V M :Rappelons tout d’abord que M est symétrique définie positive et que V est sy- métrique positive. Par ailleurs, V M est M symétrique : t(V M )M = M (V M ). On en déduit les propriétés suivantes :- Les valeurs propres de V M sont réelles, positives ou nulles.Il existe une base M – orthonormée de E = Rp constituée de vecteurs propresProblème 1 :Maximiser tuM V M u sous la contrainte tuM u = 1.Munissons E de la base M – orthonormée constituée des vecteurs propres e1, …, ep de V M associés aux valeurs propres λ1, …, λp les valeurs propres étant rangées par ordre décroissant (λ1 > λ2 > … > λp ≥ 0).Dans cette base, le vecteur u1 cherché s’écrit :
Composantes principales
Composantes principalestXM u = tXb = b(X)Ainsi aux axes factoriels de vecteurs unitaires u1, u2, …, ur (r étant le rang de X) sont associées les formes linéaires b1, b2, …, br appelées facteurs de l’ana- lyse en composantes principales.Il est facile de voir que le premier facteur b1 est vecteur propre de M V associé à la valeur propre λ1, que le deuxième facteur b2 est vecteur propre de M V associé à la valeur propre λ2. etc…Les facteurs caractérisent les axes factoriels aussi bien que les valeurs u1, …, ur. Ainsi, on montre de mnaière immédiate que la recherche du premier axe fac- toriel qui est de maximiser tuM V M u sous la contrainte tuM u = 1 revient à la recherche de la forme linéaire b = M u qui maximise tbV b sous la contrainteriel engendré par (u1, u2).La recherche du kime axe factoriel ∆uk engendré par uk se mène de manière analogue.uk est le vecteur propre unitaire de V M associé à la kime plus grande valeur propre λk qui est l’inertie portée par l’axe uk.λ1 + λ2 + … + λktXM u = tXb = b(X)Ainsi aux axes factoriels de vecteurs unitaires u1, u2, …, ur (r étant le rang de X) sont associées les formes linéaires b1, b2, …, br appelées facteurs de l’ana- lyse en composantes principales.Il est facile de voir que le premier facteur b1 est vecteur propre de M V associé à la valeur propre λ1, que le deuxième facteur b2 est vecteur propre de M V associé à la valeur propre λ2. etc…Les facteurs caractérisent les axes factoriels aussi bien que les valeurs u1, …, ur. Ainsi, on montre de mnaière immédiate que la recherche du premier axe fac- toriel qui est de maximiser tuM V M u sous la contrainte tuM u = 1 revient à la recherche de la forme linéaire b = M u qui maximise tbV b sous la contrainte.