DEUX EXEMPLES D’ACP
EXEMPLE
On étudie les consommations annuelles en 1972, exprimées en francs, de 8 denrées alimentaires (les variables), les individus étant 8 catégories socio-professionnelles. Les données sont des moyennes par CSP :
PAO | PAA | VIO | VIA | POT | LEC | RAI | PLP | |
AGRI | 167 | 1 | 163 | 23 | 41 | 8 | 6 | 6 |
SAAG | 162 | 2 | 141 | 12 | 40 | 12 | 4 | 15 |
PRIN | 119 | 6 | 69 | 56 | 39 | 5 | 13 | 41 |
CSUP | 87 | 11 | 63 | 111 | 27 | 3 | 18 | 39 |
CMOY | 103 | 5 | 68 | 77 | 32 | 4 | 11 | 30 |
EMPL | 111 | 4 | 72 | 66 | 34 | 6 | 10 | 28 |
OUVR | 130 | 3 | 76 | 52 | 43 | 7 | 7 | 16 |
INAC | 138 | 7 | 117 | 74 | 53 | 8 | 12 | 20 |
AGRI = Exploitants agricoles PAO = Pain ordinaire
SAAG= Salariés agricoles PAA = Autre pain
PRIN = Professions indépendantes VIO = Vin ordinaire
CSUP = Cadres supérieurs VIA=Autre vin
CMOY= Cadres moyens POT= Pommes de terre
EMPL= Employés LEC=Légumes secs
OUVR = Ouvriers RAI=Raisin de tables
INAC = Inactifs PLP= Plats préparés
Le programme SAS permettant d’obtenir les sorties ci-dessous est en Annexe.
The PRINCOMP Procédure
Observations 8
Variables 8
Tableau 1
Corrélation Matrix
PAO PAA VIO VIA POT LEC RAI PLP
PAO 1.0000 -.7737 0.9262 -.9058 0.6564 0.8886 -.8334 -.8558
PAA -.7737 1.0000 -.6040 0.9044 -.3329 -.6734 0.9588 0.7712
VIO 0.9262 -.6040 1.0000 -.7502 0.5171 0.7917 -.6690 -.8280
VIA -.9058 0.9044 -.7502 1.0000 -.4186 -.8386 0.9239 0.7198
POT 0.6564 -.3329 0.5171 -.4186 1.0000 0.6029 -.4099 -.5540
LEC 0.8886 -.6734 0.7917 -.8386 0.6029 1.0000 -.8245 -.7509
RAI -.8334 0.9588 -.6690 0.9239 -.4099 -.8245 1.0000 0.8344
PLP -.8558 0.7712 -.8280 0.7198 -.5540 -.7509 0.8344 1.0000
Tableau 2
Eigenvalues of the Correlation Matrix
Eigenvalue Difference Proportion Cumulative
1 6.20794684 5.32826545 0.7760 0.7760
2 0.87968139 0.46372027 0.1100 0.8860
3 0.41596112 0.10950645 0.0520 0.9379
4 0.30645467 0.13801317 0.0383 0.9763
5 0.16844150 0.15037379 0.0211 0.9973
6 0.01806771 0.01462094 0.0023 0.9996
7 0.00344677 0.00344677 0.0004 1.0000
8 0.00000000 0.0000 1.0000
Tableau 3
Eigenvectors
Prin1 Prin2 Prin3 Prin4 Prin5 Prin6 Prin7 Prin8
PAO -.391311 0.137823 0.161714 0.119350 0.294045 -.397748 0.106920 0.728963
PAA 0.348674 0.440585 0.319950 0.217909 -.265442 -.520704 -.423079 -.117773
VIO -.349193 0.201682 0.680632 -.028883 0.245716 0.464752 -.253923 -.180130
VIA 0.373625 0.260309 0.073482 -.396545 -.345605 0.422866 -.033345 0.575000
POT -.246371 0.743826 -.557660 -.073992 0.175725 0.107747 -.093428 -.135449
LEC -.364822 0.128021 0.032401 0.518889 -.669192 0.184942 0.313107 0.012735
RAI 0.373052 0.325980 0.254250 0.063706 0.271532 -.016265 0.765903 -.158952
PLP 0.361676 -.050227 -.161692 0.708103 0.332914 0.360245 -.224966 0.218851
Tableau 4
Coordonnees et qualite de representation des individus
csp Prin1 Prin2 qlt1 qlt2
AGRI -3.37158 -0.24582 0.88444 0.00470
SAAG -3.52171 -0.44740 0.89806 0.01449
PRIN 1.47203 0.05851 0.57460 0.00091
CSUP 4.35879 0.17611 0.94182 0.00154
CMOY 1.71808 -0.85665 0.75288 0.18717
EMPL 0.80653 -0.80853 0.42778 0.42990
OUVR -0.89910 -0.18304 0.36060 0.01495
INAC -0.56304 2.30681 0.05552 0.93193
Tableau 5
Coordonnees des variables sur les axes
Pearson Correlation Coefficients, N = 8
Prin1 Prin
PAO -0.97498 0.12927
PAA 0.86875 0.41323
VIO -0.87004 0.18916
VIA 0.93092 0.24415
POT -0.61385 0.69764
LEC -0.90898 0.12007
RAI 0.92949 0.30574
PLP 0.90114 -0.0471
INTERPRETATION
- Choix du nombre d’axes à retenir
Nous utilisons pour cela le tableau 2. Le critère de Kaiser nous conduit à sélectionner un seul axe, qui retient 77% de l’inertie totale. L’axe 2 retient tout de même 11% de l’inertie, ce qui n’est pas négligeable, et qui conduit à un taux d’inertie expliquée de 89%, ce qui est un très bon résultat. Il peut être donc intéressant de l’étudier aussi. Nous le retiendrons si nous pouvons l’interpréter.
Remarque :
Le critère du coude ainsi que celui du Scree-test nous conduisent à retenir les deux premiers axes (voir ci-dessous).
Differences | Différences secondes |
5,32826545 | 4,86454518 |
0,46372027 | 0,35421382 |
0,10950645 | -0,02850672 |
0,13801317 | -0,01236062 |
0,15037379 | 0,13575285 |
0,01462094 | 0,01117417 |
- Graphes sur le plan factoriel (1,2)
Interprétation des axes
L’interprétation des axes factoriels se fait séquentiellement, pour chaque axe et chaque nuage de points, en regardant les contributions à la formation des axes.
Axe 1 :
Variables : On sait que les variables contribuant le plus à la formation de l’axe 1 sont celles dont les coordonnées sur cet axe sont proches de 1 en valeur absolue. Pour repérer les contributions significatives, on utilise le tableau 3 : on compare les valeurs de la colonne Prin1, coordonnées du premier axe factoriel, à la racine de la contribution moyenne 1/=35%, le signe donnant le sens de contribution. On obtient :
– | + |
PAO LEC (VIO) |
RAI VIA PLP (PAA) |
PAA et VIO sont très proches de la contribution moyenne, on les intègrera donc dans l’interprétation de l’axe si elles vont dans le sens de l’interprétation que l’on peut en faire, sans elles.
L’axe 1 oppose les individus consommant du pain ordinaire, des légumes secs (et éventuellement du vin ordinaire) à ceux qui consomment du raisin, du vin (éventuellement du pain) plus sophistiqué et des plats préparés.
L’axe 1, et donc la première composante principale, mesure la répartition entre aliments ordinaires bon marchés et aliments plus recherchés.
Toutes les variables sont bien représentées sur l’axe (tableau 5 : la qualité de représentation est égale à la coordonnée au carré ; ainsi, la qualité de représentation de la variable PAO est égale à (-0,97²)=0,94 ; plus simplement, on peut avoir une idée de la qualité de représentation d’une variable sur un axe en lisant directement le graphique : une variable bien représentée est proche du bord du cercle des corrélation et à proximité de l’axe). La première composante principale explique donc correctement tous les types de consommations alimentaires.
Individus : De même, les individus contribuant le plus à la formation de l’axe 1 sont ceux dont les coordonnées sur cet axe sont les plus élevées en valeur absolue. Pour repérer les contributions significatives, on utilise le tableau 4 : on compare les valeurs de la colonne Prin1, coordonnées des individus, à la racine carrée de la première valeur propre =2,49, le signe donnant le sens de contribution. On obtient :
– | + |
AGRI SAAG |
CSUP |
Le premier axe met donc en opposition quant à leurs habitudes alimentaires les agriculteurs et les cadres supérieurs.
Les autres catégories socio-professionnelles, assez bien représentées sur l’axe à l’exception des inactifs (cf. contributions des individus sur l’axe 1), s’échelonnent suivant la hiérarchie habituelle. Elles sont bien expliquées par l’axe.
Conclusion : L’axe 1 reflète donc l’opposition qui existe entre les catégories socio-professionnelles dans leur alimentation, opposant les CSP modestes qui consomment des produits basiques aux catégories favorisées qui consomment des produits plus recherchés.