Analyse en composantes principales (ACP)

Analyse en composantes principales (ACP)

Généralités sur l’ACP

La méthode d’Analyse en Composantes Principales (analyse multivariée) permet d’analyser des données à l’aide d’un tableau à double entrées : valeurs de p variables quantitatives pour n unités (ou individu). Elle propose des représentations géométriques de ces unités et de ces variables. Cette méthode permet de mieux connaitre et d’interpréter les données à étudier à l’aide de ses représentations telles que : – représentations des unités permettant de voir s’il existe une structure non connue à priori sur l’ensemble; – représentations des variables permettant d’étudier les structures de liaisons linéaires sur l’ensemble des variables des unités.

L’ACP permet aussi de : – distinguer des groupes dans l’ensemble des unités ; – définir la corrélation entre deux variables. Autrement dit, elle permet de distinguer des groupes dans l’ensemble des unités selon les ressemblances ou les distinctions existant entre elles. Pour les variables, on cherche celles qui sont très corrélées entre elles ou celles qui au contraire ne sont pas corrélées.

Présentation du tableau des données

Les données sont des résultats de mesures effectuées sur p variables de n unités Chaque unité peut être représentée par le vecteur de ses mesures sur les p variables : : les valeurs de la observations pour la variable du tableau ; . : observation du tableau ; : variable du tableau. Chaque variable peut être représentée par un vecteur dont les composantes sont des valeurs de la variable pour les n unités

Les calculs

Lors de l’Analyse en Composantes Principales, des calculs sont à faire afin d’avoir des variables centrées réduites, c’est-à-dire, en faisant une transformation linéaire pour ramener sa moyenne à zéro (0) et sa variance en unité (1). * La moyenne de la variable notée (2.1) Où I : est l’ensemble de nombres de lignes de la matrice X mi : le poids affecté à l’individu i (2.2) * Variance de la variable notée (2.3) * La variable centrée et réduite qui a pour composantes sur l’ensemble I : (2.4) Où est l’écart type de xj Et (2.5) * Le coefficient de corrélation linéaire entre deux variables et : (2.6) qui prend les valeurs entre -1 et +1 comme nous avons vu dans la théorie de corrélation.

Matrice de corrélation

Le choix du type de la matrice est un paramètre de l’ACP. On part d’une matrice carrée des variables pour déterminer les composants principaux. L’Analyse en Composantes Principales normé est caractérisée par une matrice de corrélation de diagonales principales toutes unités.