Possibilités liées à l’augmentation de puissance des ordinateurs pour l’extraction de liaisons entre variables

Les modèles de proximité : clustering, graphes

Les nombreuses méthodes de classication non-supervisées (ascendantes/descendantes hiérarchiques, à centres mobiles, oues…) sont toutes basées sur le calcul d’un indice de similarité entre individus pris deux à deux, ou entre individus et  » individus idéal-types  » dénissant chaque classe. Cet indice relève, dans la quasi-totalité des cas, du modèle additif (distance, ou produit scalaire entre vecteurs), et ne prend pas en compte l’interaction entre variables. L’utilisation de noyaux polynomiaux à la place de produits scalaires le permettrait, mais interdirait du même coup toute explicitation du contenu des classes en termes de variables, ce qui est précisément un des résultats préférés des utilisateurs de ces méthodes, pour lesquels il est souvent aussi important de connaître le pourquoi d’un groupement d’individus que le groupement lui-même.
D’autre part, une matrice de similarité (individus × individus) peut être construite à partir de toute dénition de la similarité, et traduite sous forme de graphe dont les noeuds sont les individus et les arêtes des fonctions des valeurs de similarité. De nombreuses méthodes permettent de calculer les propriétés globales d’un graphe, ou de le partitionner [30]. Mais dans le cas général ces techniques sont intrinsèquement incapables de prendre en compte les phénomènes d’interaction, sauf bien sûr à utiliser des fonctions noyaux, sans possibilité alors d’expliciter le contenu des liens.

Conclusion

Pour conclure cette section, on observera que malgré la prolifération de nombreuses formes du modèle factoriel additif, et l’existence de modèles de proximité variés, et même de formes non linéaires comme le « MDS » (Multidimensional Scaling [146], en français « échelonnement multidimensionnel » [229]) ces nouvelles approches descriptives, restent toutes limitées par leur non prise en compte des phénomènes d’interaction entre les variables – ou du moins par leur non-explicitation quand elles sont l’objet d’extensions au moyen de méthodes à noyaux, tous inconvénients rédhibitoires pour les applications aux sciences humaines.
Les liaisons complexes sont étudiées à travers des modèles qui contiennent quelques variables,rarement plus de cinq, car les modèles statistiques permettant de le faire ne permettent pas mieux.
En eet avec 5 variables à 2 modalités, on a déjà 2 , soit 32 cas, et dans un modèle d’Anova, on doit avoir pour chaque cas des variances égales, un nombre d’individus proche, des lois normales an de pouvoir conclure si les moyennes sont susamment diérentes pour que le test soit signicatif. Le problème est que si les eectifs sont importants, les diérences même petites ont tendance à devenir signicatives, comme le constate S. James Press54, alors que c’est l’inverse si les eectifs sont petits. En d’autres termes ces tests ne sont pas utilisables autrement que sur des eectifs « raisonnables ». On peut sélectionner ces variables par des procédures automatiques de choix mais on se heurte à un autre problème qui est celui des hypothèses multiples [131] en statistiques. Ce problème se rencontre aussi au niveau de l’interprétation quand il s’agit de comparer deux des 32 cas, ou plusieurs, ce qui s’appelle rechercher des contrastes. Ces modèles ne peuvent pas s’étendre aisément à une recherche exploratoire dans de grandes bases de données.
Les nouveaux tests de validation : Monte-Carlo, bootstrap, jackknife, permutation, randomisation.
Les tests d’hypothèses des statistiques classiques sont construits sur un mode très mathématique (des hypothèses précises, des démonstrations, des conclusions). Il en découle une qualité supérieure de preuve scientique, mais cela impose aux chercheurs des sciences humaines de s’adapter aux modèles statistiques disponibles, ou d’en chercher de nouveaux, ce qui peut freiner l’avancée de leurs réexions dans leur propre discipline. D’autres tests sont possibles, nécessitant un moindre formalisme mathématique, mais plus gourmands en capacité informatique, ce sont les tests basés sur des simulations. D’un cote le bootstrap et le jackknife donnent des versions « approximatives » des variantes qui « auraient pu être », alors que la randomisation et la permutation produisent des données qui n’ont « strictement rien a voir ». Dans le premier cas on recherche les relations qui résistent à la variation (pour les garder), dans l’autre celles qui résistent à la randomisation et la permutation (pour les éliminer).

Un modèle proche des données, versus des données proches d’un modèle

Nous avons vu dans le chapitre précédent que les chercheurs en sciences humaines ont recours à des méthodes statistiques quand ils veulent convaincre leur communauté scientique de l’action de certaines variables sur d’autres. En statistique inférentielle, leur choix porte essentiellement sur le modèle linéaire. Ce modèle, même dans sa version la plus simple qu’est la régression, nécessite la réunion d’un certain nombre de conditions pour que les résultats obtenus soient valides. S’aranchir de la condition de normalité des distributions est possible en utilisant par exemple des tests basés sur les rangs [220, 70], mais ces tests ont également leurs conditions d’application (ils fonctionnent généralement mal quand les ex-aequo sont trop nombreux). Une autre stratégie consiste à recoder les variables pour qu’elles soient plus adaptées aux modèles existants, en les normalisant55 par exemple. Ce n’est pas toujours adapté, et cela peut même être impossible56. Mais surtout, nous souhaitons développer des méthodes de traitement de données qui peuvent être utilisées dans les diérents domaines des sciences humaines, donc avec des données ayant des distributions variées de valeurs, ou même qui peuvent se modier au cours du temps (ux de données). Les nouveaux tests de validation à base de simulation permettent de remplacer la comparaison des valeurs observées à des valeurs théoriques par leur comparaison à des valeurs simulées.

Les simulations de Monte-Carlo

D’après Malvin H. Kalos et Paula A. Whitlock [137], ce sont des chercheurs travaillant dans le domaine nucléaire américain dans les années 1940 qui ont utilisé les premiers le nom de « méthode de Monte Carlo » en référence aux jeux de hasard. Les méthodes mathématiques ainsi désignées avaient pour but de trouver des valeurs approchées de quantités numériques en utilisant des simulations du hasard. L’exemple le plus connu est celui du calcul de la valeur approchée d’une intégrale quand on ne peut calculer sa valeur exacte. Il remonterait à Buon, auteur également en 1777 de l’expérience de l' »aiguille de Buon »57. Dans leur premier chapitre intitulé « What is Monte Carlo », les auteurs choisissent la dénition suivante d’une « méthode de Monte Carlo » :
C’est une méthode de calcul qui requiert une utilisation délibérée de nombres tirés au hasard selon un processus stochastique .
Ils dénissent un tel processus comme une succession d’états dont l’évolution est déterminée par des évènements aléatoires. C’est donc plus qu’une simple génération de nombres aléatoires.
La distinction que certains chercheurs font entre cette méthode de résolution approchée et la seule transcription informatique d’un processus stochastique naturel que serait la simulation proprement dite, leur semble théoriquement justiée mais dicile à maintenir dans la pratique, tant les deux paraissent liées.
Reuven Y. Rubinstein, au début de son ouvrage intitulé « Simulation and the Monte Carlo method » [209], donne trois éléments qui peuvent aider à distinguer les méthodes de Monte Carlo des simulations. Ce sont le rôle plus important du temps dans les secondes, l’indépendance entre observations dans les premières ainsi que leur facilité d’écriture de la « réponse » en une fonction des observations simulées. Dans le reste de son ouvrage, il fait une revue détaillée des divers types d’utilisation des simulations de Monte-Carlo et de leurs fondements. Il décrit la résolution approchée d’équations linéaires variées (simultanées, intégrales, diérentielles) par simulations de chaînes de Markov à temps discret ou continu, la résolution approchée de problèmes d’optimisation, mais également les méthodes de génération de nombres aléatoires vériant des distributions de probabilité variées qui sont davantage dans notre champ d’investigations.

Bootstrap et jackknife

D’après Bertail [21], ces méthodes ont été introduites par Quenouille (1949) pour le jackknife, repris par Tukey (1958), et par Efron en 1974 pour le bootstrap (également appelé bootstrapping). Ces deux méthodes font partie des méthodes de rééchantillonnage dont le but est d’évaluer la conance qu’on peut avoir dans les valeurs de paramètres (comme la moyenne, la variance) calculés sur les données. Pour cela on tire dans les données un nouvel échantillon d’individus pour lequel on calcule le paramètre d’étude, et on répète cela pour un certain nombre d’échantillons, en observant les variations du paramètre.
D’après Christopher Z. Mooney et Robert Duval [180], le bootstrap et les statistiques inférentielles ont le même but : estimer la valeur de certains paramètres (comme la moyenne, la variance) de la population à partir de la distribution de ses valeurs, qu’on déduit de l’échantillon.
La diérence vient de la façon dont on la déduit. Pour les statistiques inférentielles c’est en utilisant des hypothèses sur la façon dont les valeurs sont distribuées dans la population alors que pour le bootstrap, on suppose qu’elles sont distribuées comme dans les données dont on dispose.
C’est en ce sens qu’on peut dire que le bootstrap fait partie des méthodes non paramétriques.

Les tests de permutation et de randomisation

On peut voir les tests de permutation comme une alternative combinatoire aux tests d’hypothèses des statistiques classiques quand les conditions exigées par ces derniers ne sont pas vériées par les données. Phillip Good, dans son ouvrage consacré à ces tests [96], va plus loin en armant que ce sont les tests d’hypothèses classiques qui sont une alternative théorique aux tests de permutation quand la puissance de calcul est insusante. Citons-le (page 10 de son ouvrage, dans la section intitulé « History ») : World war II provided impetus for developping a theorical basis for parametric procedures that would « serve » in place of the correct but computationnaly demanding permutations.
Les tests de permutation consistent à tester une hypothèse (l’hypothèse nulle H0) sur des données en calculant la proportion de données simulées qui sont au moins aussi extrêmes que les données d’origine selon cette hypothèse. Cette proportion correspond au risque α de se tromper en rejetant H0. Les données simulées sont créées à partir des données d’origine en gardant toutes les observations, toutes les variables et toutes les valeurs présentes dans les données observées, mais en réaectant diéremment les valeurs des variables aux observations sous l’hypothèse H0.
Dans la mesure où chaque variable garde globalement le même ensemble de valeurs, il s’agit d’une permutation entre ces dernières. Toutes les permutations possibles sous H0 sont envisagées et comparées aux données d’origine. Le plus ancien de ces tests de permutation, remonte à Fisher (1932), et selon Good ces tests sont redécouverts régulièrement depuis, notamment les tests utilisant les rangs [214, 220, 70] font partie des tests de permutation car ils procèdent par échange des rangs des valeurs.

Un prédécesseur : le test exact de Fisher

Le test de permutation le plus connu est le test exact de Fisher (1932) que l’on retrouve dans les ouvrages de statistiques de base, à la suite du test du Chi2 d’indépendance [206, 214]. On l’illustre habituellement par un tableau de contingence croisant deux propriétés à deux modalités chacune, donc de quatre cases, avec un eectif très faible dans l’une de cases, et des eectifs un peu plus élevés pour les trois autres, le total n’étant pas très élevé (cf. exemple du tableau 3.1).
La question qui se pose est alors de décider si la valeur de l’eectif le plus faible est due à un lien entre les deux propriétés ou au seulhasard. Pour l’établir, on part des eectifs marginaux, comme dans le test du Chi2, mais au lieu de calculer les eectifs théoriques en cas d’indépendance, on fait le compte de toutes les distributions de valeurs conjointes qui auraient pu aboutir aux mêmes eectifs marginaux. Reprenons l’exemple que citent Henri Rouanet, Jean-Marc Bernard et Brigitte le Roux dans leur ouvrage [206] : 5 sujets pour lesquels on aurait relevé les valeurs suivantes de taille et de poids relativement à une taille de 171 cm et un poids de 82 kgs selon le tableau 3.1.

Formation et coursTélécharger le document complet

Télécharger aussi :

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *