Travail sur un tableau de contingence – Test du khi-2
Enoncé
Une étude a été menée en 1990-91 sur les facteurs pouvant influer sur le port de la ceinture de sécurité par les conducteurs et les passagers de voitures de tourisme et de véhicules utilitaires. De nombreuses observations ont été effectuées (9434 au total), et ont donné lieu au relevé des éléments suivants :
– Nature du véhicule (voiture de tourisme / véhicule utilitaire)
– Age du conducteur (trois classes d’âge)
– Sexe (M / F)
– Port de la ceinture (port / non port)
– Présence d’un passager avant (oui / non)
– Le cas échéant, âge, sexe et port de la ceinture pour le passager
– Présence de passagers arrière (oui / non)
On s’intéresse tout d’abord à l’effet du type d’occupation du véhicule (conducteur seul, conducteur + passagers avant, conducteur + passagers arrière, conducteur + passagers avant et arrière) sur le port de la ceinture par le conducteur. On dispose de 8374 observations concernant cette partie de l’étude. Les données sont les suivantes :
Port ceinture | non port de ceinture | |
Seul | 2825 | 3468 |
Cond. + pass. avant | 729 | 815 |
Cond. + pass. arrière | 80 | 113 |
Cond. + pass. av. et arr. | 168 | 176 |
On souhaite en particulier tester l’existence d’un lien entre les deux variables « Type d’occupation » et « Port de la ceinture » à l’aide d’un test du khi-2.
Mise en oeuvre du test du khi-2
Nous pouvons être amenés à réaliser un test du khi-2 sur des données structurées de différentes façons : tableau de contingence (c’est généralement le cas lorsque les données sont issues d’un exercice de TD), tableau du protocole (par exemple, vous avez saisi les réponses que vous avez recueillies à un questionnaire), tableau recensé comportant une colonne d’effectifs observés pour chaque combinaison de modalités. Nous allons donc étudier comment réaliser un test du khi-2 dans chacun de ces cas.
Le test du khi-2 à partir d’un tableau protocole
En général, une ligne d’une feuille de données Statistica correspond à une observation. Autrement dit, nous devions ici avoir 8374 lignes du type suivant :
N° obs | Type d’occupation | Port ceinture |
1 | Seul | Oui |
2 | Seul | Oui |
… | … | … |
8374 | Cond. + pass. av. et arr. | Non |
Ouvrez le classeur Ceinture.stw et affichez la feuille de données Ceinture-protocole. Observez la façon dont elle a été constituée.
Vérifier la saisie des données
La feuille de données Ceinture-protocole correspond-elle à l’énoncé ci-dessus ? On peut le vérifier en utilisant le menu : Statistiques – Statistiques élémentaires – Tableaux et tris croisés, et en sélectionnant l’onglet Tableaux croisés ou l’onglet Tris croisés. Pour l’onglet Tableaux croisés, le bouton « Spécifier les tables (sélection des variables) » permet d’avoir accès au dialogue suivant :
Avec l’onglet Tris croisés, le bouton « Spécifier les tables » affiche un dialogue analogue, mais beaucoup plus simple. On sélectionne alors des deux variables « Occupation » et « Port ceinture ». Après avoir validé ce dialogue, on peut cliquer sur le bouton « Synthèse » pour obtenir un tableau de contingence du type suivant :
Test du khi-2 sur un tableau protocole – Première méthode
Le test du khi-deux sur ce tableau de contingence peut être obtenu comme résultat supplémentaire de l’étude en cours. Pour cela, reprenez l’analyse en cours, activez l’onglet « Options » et cochez les cases « Chi² max de vraisemblance et Pearson » et un autre item de l’onglet, « Effectifs théoriques », par exemple).Outre les effectifs théoriques, on obtient comme résultat la valeur de la statistique du khi-2 (c² = 5,56) et son niveau de significativité (p=0,13) :
Lecture du résultat. Le niveau de significativité (p=0,1349=13,5%) indique qu’on ne peut pas rejeter l’hypothèse d’une indépendance entre le mode d’occupation du véhicule et le fait, pour le conducteur de porter la ceinture ou non.
Test du khi-2 sur un tableau protocole – variante
Une deuxième méthode pour obtenir le khi-2, avec une meilleure présentation, est de procéder comme suit :
– Utiliser le menu Statistiques – Statistiques élémentaires – Tableaux et tris croisés
– Sélectionner l’onglet « Tableaux croisés » ou l’onglet « Tris croisés« .
– Cliquer sur le bouton « Spécifier les tables (sélection des variables) » et spécifier « Occupation » comme première variable et « Port ceinture » comme deuxième variable.
– Après avoir validé, afficher l’onglet « Options » et cocher la case « Chi² max de vraisemblance et Pearson »
– Enfin, afficher l’onglet « Avancé » et cliquer sur le bouton « Tableaux détaillés à double entrée« .
On obtient alors parmi les résultats la feuille de données suivante :
Le test du khi-2 à partir d’un tableau d’effectifs
Si les données que nous devons traiter sont des données que nous avons nous-mêmes recueillies, nous disposons sans doute d’un tableau protocole, et le traitement précédent convient. Cependant, si nous disposons au départ d’un tableau d’effectifs ou d’un tableau de contingence, il est évidemment très fastidieux de composer une feuille de données du type précédent. Cependant, comme nous l’avons vu dans un paragraphe précédent, Statistica permet de travailler sur des données pondérées. Nous allons donc saisir nos données de..
Type occupation | Ceinture | Effectif | |
1 | seul | oui | 2825 |
2 | avant | oui | 729 |
3 | arrière | oui | 80 |
4 | avant et arrière | oui | 168 |
5 | seul | non | 3468 |
6 | avant | non | 815 |
7 | arrière | non | 113 |
8 | avant et arrière | non | 176 |
Saisissez ces données dans une nouvelle feuille du classeur Ceinture.stw, nommez cette feuille Ceinture-effectifs et rendez-la active. Vérifiez bien que vous définissez exactement 4 modalités pour la variable « Type d’occupation » et 2 modalités pour la variable « ceinture ». Pour cela, faites un double-clic sur la colonne correspondante, puis cliquez sur le bouton : Valeurs/Stats…Les pondérations peuvent aussi bien être définies comme propriété de la feuille elle-même que comme propriété de l’une des analyses. Dans le cas où l’on souhaite attacher les pondérations à la feuille elle-même, on affiche la feuille de données et on utilise le bouton « pondérations » de la barre d’outils : . Les pondérations s’appliquent alors à toutes les analyses utilisant cette feuille. Dans le cas où l’on souhaite que les pondérations ne soient prises en compte que pour l’analyse en cours, on utilise le menu Statistiques Elémentaires et on clique sur le bouton « pondérations » de la fenêtre de dialogue. Les pondérations ne concerneront alors que l’analyse en cours.