Cours quelques commandes SPSS, tutoriel & guide de travaux pratiques en pdf.
Graphes des moyennes
Ayant vérifié les données brutes pour la présence de données aberrantes, l’étape suivante est de faire un résumé des données en regardant les moyennes des groupes. On voudrait donc un seul graphique montrant la moyenne des différents groupes. Pour ce faire, il faut un graphique des moyennes. SPSS nous offre différentes présentations (bar, dot et line), mais toutes fonctionnent sur le même principe. Allez dans « Graphs : Interactive : Bar », et vous verrez le dialogue visible dans la Figure 14.
Dans l’axe vertical, glissez avec la souris un nomcol qui représente le score de vos participants que vous voulez comparer au travers des groupes. Vérifiez qu’en bas, la boîte de choix « Bars represent » montre bien « Means ». Sur l’axe horizontal, indiquez le nomcol qui permet de savoir dans quel groupe chaque sujet se trouve. [En utilisant le bouton de droite de la souris sur l’axe horizontal, j’ai changé [groupe] de « scale » à « categorical » pour que le résultat soit plus joli].
Avant de faire « Ok », allez sur l’onglet « Error Bars » pour cocher « Display Error Bars » et choisissez « Standard Error of mean » dans la liste (nous verrons plus tard ce que représente l’erreur standard ou l’erreur type), comme on le voit dans la Figure 15.
Le fichier Formation1.dat
Allez sur le site web du cours et trouvez le fichier formation1.dat se trouvant vers le bas de la page. Le début du fichier est illustré dans la Figure 17.
Le fichier ne contient qu’une colonne de valeurs, le poids en kilogrammes de 203 poches de cafés faites en Amérique centrale par des ouvriers. On a constaté que le poids varie considérablement d’une poche à l’autre et les acheteurs aimeraient savoir quel est le poids moyen d’une poche. Votre but est donc de vérifiez le fichier pour voir s’il n’existe pas d’anomalie, puis de sortir des statistiques décrivant les poches de cafés.
Comment allez-vous procéder?
Premièrement, il faut vérifier les données brutes pour s’assurer qu’il n’existe pas d’anomalie. Pour ce faire, ouvrez le fichier de données puis faites un graphique des histogrammes.
Notez que “c:\windows\bureau\formation1.dat” est la localisation du fichier sur mon ordinateur, mais que cela peut varier. De plus, j’ai choisi d’appeler la colonne de poids « valeur » mais « poids » aurait été aussi bon, sinon meilleur.
Puis faites le graphe des histogrammes avec les menus pour vérifier la présence de données aberrantes (voir le dialogue de la Figure 18).
Bien qu’on ne la voie presque pas, il existe une donnée aberrante passée 500 kilogrammes. Vérification faite auprès des manutentionnaires de café dans le vieux port, il est impossible qu’une poche puisse être aussi lourde, et il s’agit sans aucun doute d’une erreur dans la saisie de données. Il faut donc omettre cette valeur dans les analyses suivantes. Pour ce faire, filtrer le fichier de données avec la commande select if:
comment élimine la donnée aberrante à 500 kg. o select if valeur < 500.
Puis on refait l’histogramme, que l’on voit dans la Figure 20.
Cette fois-ci, on voit mieux la dispersion des données, mais il existe encore deux points isolés, un supérieur à 125 kg, et l’autre autour de 0 kg. Les deux sont visiblement hors-norme, et nous allons les omettre des analyses suivantes:
Nous passons aux statistiques descriptives avec la commande:
- comment génère les statistiques descriptives. o examine variable=valeur
- /statistics=descriptive
- o/plot=none.
Voici dans la Figure 22 le résultat qui apparaît dans la fenêtre de résultats.
Nous apprenons qu’après avoir traité 200 cas, le poids moyen est de 63.5 ± 1.1 kg. L’écart type dans le poids est de 15.2 kg, ce qui est beaucoup. (Rappelons que) Nous avons éliminé trois données aberrantes, une inférieure à 2 kg et les deux autres supérieures à 125 kg.
Exemple 2: le QI pour les gens de la ville et de la campagne
Le fichier de données s’appelle QI.dat et se trouve sur le site web. Le fichier contient deux colonnes, la première indiquant par un 1 ou un 2 la provenance des personnes (1=ville, 2=campagne), et la seconde, la mesure du QI obtenue sur un test standardisé.
Examinez le fichier pour la présence de données aberrantes, puis calculez des statistiques pour chacun des habitants de la ville et de la campagne.
La seule différence ici est que nous avons deux groupes de sujets. Pour faire le graphe des histogrammes, nous allons utiliser deux panneaux. Finalement, pour la commande examine, nous allons séparer les statistiques selon le groupe d’appartenance.
La fenêtre des résultats est imprimée dans la Figure 24. Elle vient en deux sections, une pour l’ensemble des données, peu importe le groupe d’appartenance, l’autre section divisée selon le groupe. On voit dans la seconde section que la moyenne du QI des deux groupes est très semblable, 100.1 ± 0.4 vs. 99.9 ± 0.4. Bien qu’on ne puisse rien conclure sans un test statistique, il semble en tout cas que si différence il y a, elle est très faible.
Quelques commandes SPSS
Il peut être nécessaire parfois de transformer les données en cotes z. Il s’agit alors de réaliser une transformation linéaire, dans laquelle on soustrait par la moyenne, puis on divise par l’écart type du groupe. Pour réaliser une transformation linéaire (ou non linéaire, voir section 11), la commande SPSS est:
- compute nomcol = (nomcol – mu ) / sigma.
où mu est une valeur spécifique (qui peut être trouvée avec la commande explore) et sigma est aussi une valeur spécifique. Par exemple:
- compute valeur2 = (valeur – 100 ) / 10.
va créer une nouvelle colonne, nommée valeur2, qui contient les données de valeur normalisée suivant une moyenne de 100 et un écart type de 10.
Avec la commande compute, n’importe quelle transformation peut être réalisée qui utilise des +, -, / et * (multiplication) et des noms de colonnes existants. Par exemple, cette commande totalement arbitraire:
- compute valeur2 = (valeur * groupe) – 50.
où on suppose que les colonnes valeur et groupe existent, va créer une nouvelle colonne valeur2.