Cours analyse de données avec SPSS, tutoriel initiation au logiciel SPSS pdf.
C’est un cours SPSS complet pour apprendre la pratique du statistique avec SPSS, donc on peut voir sur la figure 4.3 que la distance euclidienne mesure la distance (ou la proximité) entre deux observations dont les coordonnées dans l’espace sont données par les valeurs des variables X et Y.
Pour l’observation 1, ces coordonnées sont (X1, Y1) et (X2, Y2) pour l’observation 2.
La distance euclidienne entre ces deux points est la longueur de l’hypothénuse du triangle rectangle.
Il est également possible de prendre le carré de la distance euclidienne en enlevant la racine carrée de la formule ci-dessus.
C’est une approche qui facilite le calcul et qui peut être utilisée, par exemple, dans la méthode de Ward (voir ci-après).
D’autres mesures de distance peuvent s’avérer appropriées dans le cadre de données métriques :
• le coefficient de corrélation de Pearson : c’est une mesure d’association qui permet d’établir si deux variales mesurées sur le même ensemble d’observations varient de façon analogue ou non ;
• la distance de Tchebycheff : il s’agit de la différence maximale absolue entre les valeurs relatives aux éléments de la classification ;
• la distance de Minkowski : c’est la racine nième de la somme des différences absolues entre les valeurs relatives aux éléments à la puissance n.
Dans le cadre d’une classification avec des données binaires, on privilégiera :
• l’indice de Sokal et Michener : il représente le rapport entre les appariements (rappro-chements deux à deux) et le nombre total de valeurs ;
• l’indice de Rogers et Tanimoto : cet indice attribue un poids deux fois plus important aux non-appariements (non-coïncidences) ;
• l’indice de Sokal et Sneath : un poids plus important est accordé aux appariements qui comptent le double.
De nombreuses autres mesures de distance existent ; il est fortement conseillé de tester empiriquement ces techniques afin de définir la mesure qui représentera de la manière la plus efficace la structure des données collectées.
Un certain nombre de limites doivent cependant être prises en compte. Lors d’analyses typologiques reposant sur des mesures différentes – par exemple des échelles de Likert, des pourcentages, des montants en euros, etc. –, il est nécessaire de standardiser les mesures et d’élimer les observations aberrantes.
En ce qui concerne la standardisation, l’approche la plus courante est la méthode de l’écart type, mais d’autres approches peuvent être testées.
L’utilisation de mesures de distance différentes peut conduire à des résultats de classification différents.
L’analyse typologique est en ce sens une méthode empirique, où, comme nous l’avons signalé, de nombreuses combinaisons doivent être testées avant de déterminer la configuration optimale.
CONSTITUTION DES GROUPES
Il existe deux types de méthodes de constitution des groupes (classification) : les méthodes dites hiérarchiques et les méthodes non hiérarchiques (voir figure 4.4).
Les méthodes de classification hiérarchique consistent à établir une structure arborescente ascendante (à partir de chaque individu de groupe différent en constituant des groupes de plus en plus gros) ou descendante (à partir de tous les individus regroupés).
Les méthodes de classification non hiérarchique visent à constituer k groupes (k étant spécifié en début d’analyse) à partir des n individus de départ. Nous présentons dans cette section les méthodes les plus couramment mises en œuvre.
Introduction
Chapitre 1 • Analyser pour décider
Chapitre 2 • Décrire les données
Chapitre 3 • Simplifier les données
Chapitre 4 • Segmenter
Chapitre 5 • L’analyse de variance
Chapitre 6 • La régression linéaire
Chapitre 7 • L’analyse conjointe
Chapitre 8 • Communiquer les résultats
Bibliographie générale
Index
Analyse de données avec SPSS (5,71 MO) (Cours PDF)