Tests statistiques non paramétriques

Tests statistiques non paramétriques

Travail sur un tableau de contingence – Test du khi-2

Enoncé

Une étude a été menée en 1990-91 sur les facteurs pouvant influer sur le port de la ceinture de sécurité par les conducteurs et les passagers de voitures de tourisme et de véhicules utilitaires. De nombreuses observations ont été effectuées (9434 au total), et ont donné lieu au relevé des éléments suivants :
– Nature du véhicule (voiture de tourisme / véhicule utilitaire)
– Age du conducteur (trois classes d’âge)
– Sexe (M / F)
– Port de la ceinture (port / non port)
– Présence d’un passager avant (oui / non)
– Le cas échéant, âge, sexe et port de la ceinture pour le passager
– Présence de passagers arrière (oui / non)
On s’intéresse tout d’abord à l’effet du type d’occupation du véhicule (conducteur seul, conducteur + passagers avant, conducteur + passagers arrière, conducteur + passagers avant et arrière) sur le port de la ceinture par le conducteur. On dispose de 8374 observations concernant cette partie de l’étude. Les données sont les suivantes :

Port ceinture non port de ceinture
Seul 2825 3468
Cond. + pass. avant 729 815
Cond. + pass. arrière 80 113
Cond. + pass. av. et arr. 168 176

On souhaite en particulier tester l’existence d’un lien entre les deux variables « Type d’occupation » et « Port de la ceinture » à l’aide d’un test du khi-2.

Mise en oeuvre du test du khi-2

Nous pouvons être amenés à réaliser un test du khi-2 sur des données structurées de différentes façons : tableau de contingence (c’est généralement le cas lorsque les données sont issues d’un exercice de TD), ou tableau du protocole (par exemple, vous avez saisi les réponses que vous avez recueillies à un questionnaire). Nous allons donc étudier comment réaliser un test du khi-2 dans chacun de ces deux cas.

Le test du khi-2 à partir d’un tableau protocole

En général, une ligne d’une feuille de données statistiques correspond à une observation. Autrement dit, nous devons ici avoir 8374 lignes du type suivant :

N° obs Type d’occupation Port ceinture
1 Seul Oui
2 Seul Oui
8374 Cond. + pass. av. et arr. Non

Chargez R, puis R Commander et importez le classeur Ceinture.xls comme jeu de données. Sauvegardez-le au format RData sous le nom Ceinture.RData
Utilisez le menu Statistiques – Tables de Contingence – Tableau à double entrée. S’affiche alors la fenêtre de dialogue suivante :
L’application de la méthode produit plusieurs résultats.
– R construit d’abord un tableau de contingence à partir des données fournies :
> .Table <- xtabs(~Occupation+Port.ceinture, data=Ceinture)
> .Table
Port.ceinture
Occupation          Non  Oui
Arrière           113   80
Avant             815  729
Avant et arrière  176  168
Seul             3468 2825
On peut ainsi vérifier que les données du fichier Ceinture.xls correspondent à l’énoncé ci-dessus;
– R calcule ensuite la statistique du khi-2 sur ce tableau de contingence et nous renvoie la valeur du khi-2 (c² = 5,5631) ainsi que son niveau de significativité (p=0,1349):
> .Test <- chisq.test(.Table, correct=FALSE)
> .Test
Pearson’s Chi-squared test
data:  .Table
X-squared = 5.5631, df = 3, p-value = 0.1349
Lecture du résultat. Le niveau de significativité (p=0,1349=13,5%) indique qu’on ne peut pas rejeter l’hypothèse d’une indépendance entre le mode d’occupation du véhicule et le fait, pour le conducteur de porter la ceinture ou non.

Le test du khi-2 à partir d’un tableau de contingence

On peut aussi fournir à R Commander un tableau de contingence. Pour cela, on utilise le menu Statistiques – Tables de Contingence – Remplir et analyser un tableau à double entrée…
On spécifie tout d’abord les dimensions du tableau, puis on indique les effectifs correspondant aux combinaisons de modalités. L’ordre dans lequel sont prises les différentes modalités est sans importance :
On obtient les résultats suivants :
> .Table <- matrix(c(2825,3468,729,815,80,113,168,176), 4, 2, byrow=TRUE)
> rownames(.Table) <- c(‘1’, ‘2’, ‘3’, ‘4’)
> colnames(.Table) <- c(‘1’, ‘2’)
R écrit le tableau de contingence :
> .Table  # Counts
1    2
1 2825 3468
2  729  815
3   80  113
4  168  176
On obtient ensuite le résultat du test du khi-2, identique à celui obtenu précédemment :
> .Test <- chisq.test(.Table, correct=FALSE)
> .Test
Pearson’s Chi-squared test
data:  .Table
X-squared = 5.5631, df = 3, p-value = 0.1349
Enfin, comme nous avions cochez la boîte « Composants de la statistique du Chi-deux », R nous indique les contributions des différentes cases du tableau au khi-deux :
> round(.Test$residuals^2, 2) # Chi-square Components
1    2
1 0.36 0.30
2 1.12 0.93
3 0.66 0.55
4 0.89 0.74
On peut remarquer que les données saisies sous forme de tableau de contingence ne sont pas mémorisées par R, mais seulement utilisées pour le calcul immédiat du khi-deux.

Cours gratuitTélécharger le cours complet

Télécharger aussi :

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *