Cours SPSS analyse de données quantitatives, tutoriel & guide de travaux pratiques en pdf.
La régression simple
L’objectif est de déterminer les coefficients de l’équation pour la droite de régression qui permette la meilleure approximation possible des données observées.
Méthode ordinaire des moindres carrés
Objectif: minimisation des erreurs de prédiction (voir ci-dessous)
Droite de régression: y = a + bx
Dans la réalité, les valeurs prédites de y (=ŷ) l’aide de l’équation de régression sont différentes des valeurs observées pour y On parle à ce propos d’erreur de prédiction Erreuri = valeur observéei – valeur préditei
En cela, les deux équations ci-dessous sont équivalentes
- = a + bx
- y = a + bx + erreur
Sur cette base, on peut calculer la somme des erreurs de prédictions pour l’ensemble des observations Les erreurs sont au préalable élevées au carré pour éviter qu’elles s’annulent La somme des erreurs équivaut donc à:(yi – ŷi)2
Cette somme représente la variation de y autour de la droite de régression
On qualifie cette variation de résiduelle, car c’est la part de la variation de y qui « reste » après qu’on ait pris en compte celle qui dépend des valeurs prises par x
On parle donc de la « somme des carrés des erreurs résiduelles » (en abrégé RSS) ou plus simplement de « résidus »
RSS = Σ résidusi2 = Σ (yi – ŷi )2
La variation totale de y autour de sa moyenne, c’est-à-dire en ignorant la droite de régression, est également calculée comme étant une somme des carrés des erreurs (en abrégé TSS)
Soit: TSS = Σ (yi – y)2
La différence entre les deux mesures de variation est la quantité de variation qui est expliquée par la régression de y sur x
La corrélation élevée au carré (r2) exprime la variation expliquée comme une fraction de la variation totale de y
On parle ainsi de r2 comme d’une mesure de « réduction proportionnelle de l’erreur »
On l’utilise comme indicateur de la qualité globale (« fit ») de l’équation de régression, c’est-à-dire du degré auquel elle permet de prédire y
Mesure la proximité avec laquelle la droite de régression « colle » aux points observés
Plus précisément, sr est la distance moyenne des observations par rapport à la droite de régression
Autrement dit, « l’erreur typique » commise par l’équation de régression en prédisant y à partir de x
De plus, si les résidus sont approximativement distribués selon une courbe normale, 2/3 de ces résidus sont dans un éventail de ± 2 écarts types (autour de ŷ) et 95% d’entre eux sont dans un éventail de 4 écarts types.
Nota Bene:
Dans SPSS, on parle de « erreur standard de l’estimation »
C’est dommage car le terme « erreur standard » est normalement utilisé pour parler de la distribution d’une statistique particulière
Exemple 1 avec SPSS
Par la syntaxe
REGRESSION
/MISSING LISTWISE
/STATISTICS COEFF OUTS CI R ANOVA CHANGE /CRITERIA=PIN(.05) POUT(.10) /NOORIGIN
/DEPENDENT fertil
/METHOD=ENTER tauxemp.
Syntaxe simplifiée
REGRESSION
/MISSING LISTWISE
/STATISTICS DEFAULTS CI
/DEPENDENT fertil
/METHOD=ENTER tauxemp.
Préambule à SPSS
Introduction
La régression simple
Exemple 1 avec SPSS
La régression multiple
Les variables indépendantes catégorielles
Exemple 2 avec SPSS