Table de contingence et analyse factorielle des correspondances

Table de contingence et analyse factorielle des correspondances

Ce premier chapitre, dont le but est de fixer les notations, traite des tables de contingence et de l’analyse factorielle des correspondances. Cette dernière permet d’analyser les dépendances entre deux variables catégorielles tout en les visualisant.

Alors que la plupart des ouvrages pro posent de pratiquer l’analyse des correspondances directement sur les tables de contingences, la méthode exposée ici (section 1.4) se base sur un MDS (multi-dimensional scaling) pondéré des dissimilarités du khi2 (section 1.3.1) obtenues sur la table de contingence (section 1.1).

Bien que ces deux méthodes aboutissent au même résultat, la seconde permettra d’introduire plus simplement les concepts des prochains chapitres et d’exploiter les transformations de Schoen berg (section 1.3.4). On reviendra aussi sur les différentes mesures possibles du lien entre deux variables catégorielles (section 1.2) et sur les propriétés des dissimilarités du khi2 (section 1.3) qui sont aussi euclidiennes carrées (section 1.3.2).

Table de contingence et matrice documents-termes Soit deux variables catégorielles X et Y avec, respectivement, m1 et m2 modalités. La table de contingence N = (njk) compte les effectifs njk de la modalité j = 1,…,m1 de X et de la modalité k = 1,…,m2 de Y. Le profil marginal de la ligne j est défini comme nj• = knjk; celui de la colonne k, comme n•k = j njk; et la taille de l’échantillon, comme n•• = jk njk.

La table 1.1 propose un résumé de ces différentes notations.La matrice documents-termes, qui est souvent utilisée en analyse textuelle, est un cas par ticulier de la table de contingence. Dans ce cas, les modalités j de X représentent différents documents; et les modalités k de Y , différents termes (voir par exemple Lebart et Salem, section 2.4.5 sur les tableaux lexicaux et chapitre 3 sur l’analyse des correspondances des ta bleaux lexicaux).

Les njk représentent généralement les effectifs, soit le nombre d’occurences de chaque terme dans chaque document. Cependant, en statistique textuelle, ils peuvent aussi correspondre à la présence ou l’absence (1/0) de chaque terme dans chaque document ou encore à différents poids de chaque terme dans chaque document, comme, par exemple, la fréquence inverse de document (idf- inverse document frequency) (voir par exemple Salton et McGill, 1983, figure 1-12 et chapitre 3). 

Lien entre deux variables catégorielles

A partir d’une table de contingence, il est possible de tester si les deux variables catégorielles sont significativement liées. Le test le plus utilisé est celui du khi2 (section 1.2.1). Cependant, il existe d’autres coefficients et tests, spécifiques à la quantification du lien entre deux variables catégorielles binaires (section 1.2.2).

Test d’indépendance du khi2 Les effectifs de la table de contingence sous indépendance théorique sont définis comme nth jk = nj•n•k n•• . Ainsi, l’écart des effectifs observés à l’indépendance est mesuré par la variable de décision du khi-carré : m1 khi2 = j=1 m2 k=1 (njk −nth jk)2 nth jk (1.1) Pour en tester la significativité (hypothèse H0 : X et Y sont indépendantes) la variable de décision est comparée à la valeur critique χ2 1−α[(m1 − 1)(m2 − 1)], c’est-à-dire au (1 − α)ème quantile de la loi du χ2 à (m1 −1)(m2 −1) degrés de liberté.

Quotient d’indépendance Alors que le khi2 mesure le lien entre les variables X et Y , le quotient d’indépendance, aussi connu sous le nom de quotient de localisation (location quotient) en géographie et en économie (voir par exemple Hildebrand et Mace, 1950), permet de mesurer le lien entre deux modalités j et k. Il se calcule comme : qjk = njk nth jk = njkn•• nj•n•k (1.2) Les deux modalités sont en attraction mutuelle si qjk > 1, en répulsion mutuelle si qjk < 1 et en neutralité mutuelle si qjk ∼ =1.

Formation et coursTélécharger le document complet

Télécharger aussi :

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *