Correction pale ANALYSE DE DONNES MULTIDIMENSIONNELLES
EXERCICE 1 (4/5 points)
Expliquez le principe général de l’analyse factorielle – 1 point
L’analyse factorielle est un ensemble de méthodes statistiques permettant de déceller les dimensions sous-jacentes, appelées facteurs d’un tableau multidimensionnel. Au départ, on a un tableau de données multidimensionnel. On veut montrer tous les détails sur une surface plane ainsi que les structures qui ne sont pas visibles sur le tableau de départ. On veut notamment mettre en évidence les ressemblances qui existent entre les individus et les liaisons entre les variables.
Pour faire tout cela il faut déterminer le meilleur plan de projection ( plan factoriel ) et les meilleurs points de projection dans ce plan. Le meilleur plan de projection doit avoir :
– 2 axes factoriels
– la plus grande dispersion possible des individus = dispersion maximale
Au travers de l’analyse factorielle on veut remplacer des variables d’origine par de nouvelles variables.
Le type d’analyse factorielle va dépendre de la nature des variables :
– variables quantitatives : on réalise une Analyse en Composantes Principales ou ACP
– variables qualitatives : on réalise une Analyse des Correspondances multiples ou ACM
Vous trouverez ci-après 3 plans principaux que l’on pourrait rencontrer en ACP. Décrivez uniquement les situations 2 et 3 et dites quel(s) traitement(s) statistique(s) il serait judicieux de réaliser lorsque les points-individus sont ainsi représentés – 2 points
Situation 1 : c’est la situation idéale pour réaliser une ACP.
Situation 2 : on voit qu’il y a 3 points isolés du nuage de points. Ceux-ci risquent d’avoir une part d’inertie élevée car ils sont extrêmes et ils risquent d’influencer la direction d’allongement maximal. Du nuage de points. Il faut donc mettre ces 3 individus isolés comme individus illustratifs.
Situation 3 : il y a 2 groupes d’individus représentés par 2 nuages de points. Il faudrait réaliser une ACP pour chaque nuage même si cela modifierait les directions d’allongement maximal.
Quand parle-t-on d’effet « taille » ? Quelle est l’incidence de l’effet « taille » sur la caractérisation des individus ? – 1 point
Effet de taille : toutes les variables sont corrélées positivement avec la première composante principale.
EXERCICE 2 (3/5 points)
- Une analyse des Correspondances Multiples (ACM) a été réalisée sur des données de l’enquête « Conditions de vie et aspirations des Français » (105 individus et 9 questions). Pour la réalisation de l’analyse, 4 questions ont été utilisées comme questions actives tandis que toutes les autres ont été utilisées comme questions illustratives :
Questions actives
- La famille est le seul endroit où l’on se sent bien ? (oui / non)
- Les dépenses de logement sont pour vous une charge ? (négligeable / sans gros problème / une lourde charge / une très lourde charge)
- Avez-vous souffert récemment de mal de dos ? (oui / non)
- Vous imposez-vous régulièrement des restrictions ? (oui / non)
Questions illustratives
- Sexe de l’enquêté(e) (masculin / féminin)
- Disposez-vous d’un magnétoscope (oui / non)
- Avez-vous souffert récemment de maux de tête ? (oui / non)
- Regardez-vous la TV ? (tous les jours / assez souvent / pas très souvent / jamais)
Variable continue illustrative
- Age de l’enquêté(e)
- Quel(s) objectif(s) peut-on assigner à l’étude des données de l’enquête ? – 0 point
- Justifiez le choix de l’ACM pour décrire la structure des données de l’enquête. Quelle mesure de distance va-t-on utiliser dans cette analyse ? – 1 point
On choisit une ACM car les variables (les questions) sont qualitatives. Elles ont plusieurs modalités.
Ex : q1 : La famille est le seul endroit où l’on se sent bien ? Il y a 2 modalités de réponse (oui / non).
Dans cette analyse on va utiliser comme mesure de distance (et donc comme mesure de ressemblance) la distance du Chi².
- On aurait pu utiliser, dans cette analyse, la variable « âge de l’enquêté(e) » comme variable active. Comment aurait-on fait ? – 1 point
Pour cela, il aurait fallu transformer la variable quantitative « âge de l’enquêté(e) » en variable qualitative. Pour ce faire, il faut réaliser un découpage en classes qui peut se faire de 2 façons :
– utilisation des seuils naturels de la vie de tous les jours
– utilisation d’une méthode de description statistique
On peut alors réaliser un histogramme, certaines classes ont un effectif très faible, il faut donc les regrouper. En ACM, on ne veut pas forcément que les classes aient la même amplitude, mais on veut qu’elles aient environ le même effectif pour leur accorder la même importance.
- L’Analyse Factorielle des Correspondances simples (AFC) est une Analyse des Correspondances Multiples (ACM) particulière. Quel est son objectif ? – 0 point
- Qu’est-ce que l’effet GUTTMAN ? – 1 point
L’effet GUTTMAN correspond au fait que le nuage de point est une forme de parabole.
Le facteur 1 oppose les valeurs extrêmes.
Le facteur 2 oppose les valeurs extrêmes aux individus intermédiaires.