Labo 10 La corrélation et la régression
Quand les deux variables sont quantitatives, l’association statistique entre elles prend la forme de la corrélation. Ce terme est synonyme du terme : association statistique entre variables quantitatives.
Pour cet exercice, nous utiliserons le fichier intitulé Road constructions bids qui est fourni avec SPSS et auquel on accède en cliquant More Files… lorsqu’on démarre SPSS. Nous allons étudier les corrélations entre les coûts estimés et les coûts réels de projets de construction de routes entrepris par une agence municipale de transport, désignée dans le fichier par le terme DOT, soit Department of Transport.
Nous allons effectuer deux opérations distinctes. L’une consiste à produire les coefficients de corrélation entre des variables, et l’autre à dessiner le nuage de points et à obtenir la ligne de régression. SPSS peut produire les coefficients de corrélation entre plusieurs variables prises deux à deux, d’un seul coup. On général on fait cette opération dans un premier temps pour explorer la situation, afin de déceler les relations significatives, puis on analyse avec plus de détails ces relations.
Calcul des coefficients de corrélation
Pour obtenir les coefficients de corrélation, nous allons exécuter les étapes suivantes.
1. Ouvrez le fichier Road construction bids. Pour le trouver, sélectionner More files… quand vous ouvrez SPSS. Vous obtenez une liste de fichiers, et celui-ci est dans la liste.
2. Prenez le temps d’examiner les variables présentes dans le fichier, et surtout leur échelle de mesure.
Les variables traitent des coûts de certains projets de construction, des coûts estimés, et du nombre de jours de travail nécessaires pour leur exécution.
3. Nous allons examiner la relation entre le coût estimé d’un projet et son coût réel. L’estimé est donné par la variable dotest, dont l’étiquette est ‘DOT Engineer’s Estimate of Construction Cost’, et le coût réel est donné par la variable cost, dont l’étiquette est ‘Construction cost’. Dans un premier temps, nous voulons savoir dans quelle mesure les estimés des ingénieurs étaient proches des coûts réels.
4. Sélectionnez : Analyze Correlate Bivariate…
Vous obtenez la boîte de dialogue suivante :
5. Placez les variables Construction cost et DOT Engineer’s Estimate of Construction Cost dans l’espace prévu à cet effet à droite.
6. Cliquez OK (vous pouvez aussi utiliser la syntaxe si vous préférez). Vous obtenez le tableau suivant :
Le coefficient de corrélation qui nous intéresse est de 0.987, ce qui est une forte corrélation. Ceci signifie qu’en général, les coûts estimés sont pas mal proche de la réalité : ce sont de bons estimés des coûts réels.
Mais ils ne sont pas identiques aux coûts réels pour autant.
Vous aurez sans doute remarqué qu’en plus de donner le coefficient de correlation (appelé coefficient de Pearson), le tableau vous donne aussi un niveau de signification, et le nombre de cas qui ont été inclus dans le calcul. Le niveau de signification nous dit quel risque de se tromper on prend si on prétend que la relation observée est valable pour l’ensemble de la population étudiée en supposant évidemment que les données que l’on a constituent un échantillon représentatif). Le nombre de cas utilisé est important car il se peut qu’il y ait des données manquantes. Dans notre cas, les 235 données cas du fichiers ont été inclus. Il n’y a pas de données manquantes.
Remarquez aussi qu’il y a une certaine redondance dans le tableau. La corrélation d’une variable avec elle même est toujours
1. De plus, la corrélation entre x et y est la même qu’entre y et x.
Donc, une partie du tableau aurait pu être omise, et certaines versions de SPSS omettent effectivement certaines des cellules redondantes.
Ainsi, le tableau suivant contient exactement les mêmes informations que le précédent, rien de moins, car on sait comment remplir toutes les cellules vides.
I – Labos SPSS
Labo 1 Introduction à SPSS
Labo 2 La syntaxe dans SPSS
Labo 3 Les mesures descriptives I – Catégories
Labo 4 Les mesures descriptives II – Variables quantitatives
Labo 5 La manipulation des données et des variables
Labo 6 Création de nouvelles variables calculées
Labo 7 Création d’un fichier de données
Labo 8 Les tableaux croisés
Labo 9 Les comparaisons de moyennes
Labo 10 La corrélation et la régression
Labo 11 Estimation et intervalles de confiance
Labo 12 Les tests T de validation d’une hypothèse
Labo 13 Les tests de Chi-deux
II – Divers
1. Utilisation de Excel pour les calculs simples
2. Calcul de la corrélation et la régression avec Excel
3. Estimation – Notes
4. Estimation- Exercices
5. Exercices sur la courbe normale
6. Format de l’examen final et modèle de réponses
7. Questions sur le palmarès scolaire
8. Diagrammes :
Les deux branches des statistiques
L’inférence statistique
La validation d’hypothèse
Les procédures de mesure de l’association statistique
Initiation au logiciel d’analyse statistique SPSS avec exercices (812 KO) (Cours PDF)