Exploitation de l’information structurelle

Recueil des données

L’université Galatasaray (GSU) est une petite institution turque –environ 2000 élèves– implantée à Istanbul. Elle propose une grande diversité de formations (sociologie, économie, relations internationales, gestion, philosophie, sciences informatiques, sciences de l’ingénieur, droit). Les étudiants entrent dans les universités turques à la suite d’un concours national (ÖSS). Leur rang est pour eux très important car il conditionne l’université dans laquelle ils pourront étudier ainsi que la filière qu’ils pourront suivre. La GSU est une université francophone très réputée et à ce titre elle attire généralement les étudiants ayant eu un score très élevé à ce concours. Elle a la particularité de recruter également des étudiants francophone à la suite d’un concours interne spécifique. Le diplôme auquel souhaitent aboutir la majorité des étudiants est la Lisans (Licence) qui correspond en fait à un Master 1 français. Les Masters et Doctorats ont des effectifs très limités.
Dans chaque département, il existe une seule classe par niveau. Elle a en général environ  étudiants. La vie associative et culturelle y est très développée ; l’université comptant une cinquantaine de clubs sportifs ou culturels, d’associations de natures diverses (de département d’études, politiques…).
Nous avons mis en place une étude sur les réseaux sociaux au sein des étudiants de la GSU. Elle est basée sur un questionnaire, administré avec quelques modifications sur différentes périodes d’observation afin d’appréhender une partie de la dynamique des réseaux. Les résultats présentés ici se limitent aux données obtenues lors de la première phase du projet global de recherche, qui a eu lieu au cours du printemps  et concernait  répondants.
Le questionnaire défini pour cette phase était composé de trois grandes parties thématiques : la première concernait la fiche signalétique de l’étudiant et sa scolarité antérieure, la seconde ses interactions sociales, en particulier dans son environnement universitaire quotidien ; et la troisième, son rapport aux marques et son comportement d’achat. La plupart des questions avaient pour but de récolter ce que nous appelons des données d’attributs, c’est-à-dire des informations concernant exclusivement l’étudiant lui-même. Certaines visaient des données objectives telles que l’âge, le genre, l’appartenance à différents clubs et associations, la situation scolaire, l’utilisation de divers moyens de communication modernes (Facebook, Skype…). D’autres nous ont permis de recueillir des données subjectives estimant le lien et le ressenti de l’étudiant avec l’université, sa vision de ses rapports avec ses amis, les sources d’informations qu’il utilise lors de ses achats, son point de vue sur ses marques préférées. La question centrale du questionnaire avait pour but d’obtenir des données structurelles (par opposition aux données d’attributs citées précédemment), c’est-à-dire des informations de nature relationnelle, concernant plusieurs étudiants à la fois. Dans cette question, il était demandé à l’étudiant de quantifier les relations qu’il entretient avec les plus importants de ses camarades (étudiants de la GSU) sur une échelle allant de –5 (pour les étudiants qu’il déteste) à +5 (pour ceux qu’il adore) ; adoptant en cela une démarche sociométrique classique. Deux modalités de réponses étaient proposées: soit l’étudiant répondait sur une version papier du questionnaire, soit il allait directement remplir les questions le concernant sur un site web créé à cette occasion. Il est à noter que dans les deux cas, une procédure un peu lourde avait été mise en place afin de garantir le parfait anonymat des réponses, l’ensemble des noms d’étudiants étant codé sous forme d’un entier unique. Malgré cela, outre les problèmes classiques déjà évoqués, relatifs la restitution d’une information par l’individu, nous avons été confrontés à une peur de la part d’une partie des étudiants concernant l’anonymat de leurs réponses. Il s’agissait pour eux de données très personnelles et très sensibles.

Traitement des données

Une première analyse des réponses a été réalisée sous la forme de plusieurs clusterisations. Nous avons pour cela utilisé deux approches : l’une se base exclusivement sur les réponses concernant les attributs des étudiants (informations d’ordre personnel), tandis que l’autre utilise seulement les données que nous avons qualifiées de structurelles (les relations d’amitié ou d’antagonisme déclarées par les étudiants). Les résultats obtenus par ces différentes méthodes ont ensuite été comparées en utilisant la mesure de Rand ajustée, qui est un outil standard dans le domaine de la classification non-supervisée.
Clusterisation sur la base des données d’attributs. Un ensemble relativement exhaustif de typologies ont été opérées sur plusieurs combinaisons des attributs disponibles, et au moyen de différents algorithmes de clusterisation. Notre première approche a consisté à exploiter l’ensemble des attributs, mais l’hétérogénéité des réponses (certains répondants n’ont pas rendu un questionnaire complet) réduisait le nombre d’instances pertinentes. De plus, l’interprétation des résultats était délicate en raison de la dimension élevée des données (nombreuses questions). Nous nous sommes alors concentrés sur des groupes thématiques de questions, correspondant aux différentes parties du questionnaire décrit précédemment (données signalétiques, interaction sociale, rapport aux marques).
Nous avons appliqué à ces données des algorithmes de clusterisation classiques (TwoStep, EM, k-moyennes) implémentés dans PASW 18 (SPSS Inc.) et le logiciel libre de fouille de données Weka [12]. Les résultats les plus probants (cf. la section correspondante) ont été obtenus avec l’outil TwoStep de PASW 18, qui est une implémentation de l’algorithme de [13] pouvant traiter des données numériques et nominales (ce qui était notre cas). Cette implémentation optimise un critère probabiliste (AIC ou BIC) de manière à réduire la distance intra-cluster et à augmenter la distance inter-cluster. Différentes fonctions de distance sont disponibles (log-vraisemblance ou distance euclidienne).
Analyse de la structure du réseau : Détection de communautés. Dans le cas de l’utilisation de l’information structurelle, le problème de la sélection des données à exploiter ne se posait pas, puisqu’une seule question est concernée. Pour déterminer les clusters d’étudiants, nous avons utilisé l’algorithme de détection de communautés FastGreedy développé par [14], qui est plus efficace que ses concurrents sur de petits réseaux comme le nôtre [15]. Cet algorithme hiérarchique considère uniquement les données structurelles (i.e. les liens du réseau) pour identifier des clusters de nœuds plus densément connectés entre eux qu’avec le reste du réseau. Pour cela, l’algorithme utilise une approche gloutonne pour optimiser un critère appelé modularité et construire la hiérarchie de clusters. La modularité est également utilisée pour sélectionner la meilleure coupure dans cette hiérarchie et déterminer ainsi le nombre optimal de clusters. Il s’agit d’une mesure définie elle aussi par [14], et qui permet d’estimer la qualité de la partition d’un réseau.
Elle repose sur la comparaison de la proportion de liens présents à l’intérieur de chaque cluster () avec ce que serait cette proportion dans un réseau de taille comparable généré aléatoirement ( ). En résumé, cette mesure définie sur –  évalue la partition du réseau relativement à une partition aléatoire :  pour une partition parfaite (très rare sur un réseau réel),  pour une partition apparemment aléatoire, et une valeur négative pour une partition de qualité inférieure à une partition aléatoire. Nous avons utilisé l’implémentation disponible dans la bibliothèque iGraph [16] du langage statistique libre R [17].
Comparaison des clusters obtenus : mesure de Rand ajustée. Pour comparer les résultats issus des deux types de classification, nous avons utilisé la mesure de Rand (Rand Index) [18] ajustée par Hubert & Arabie [19] (Adjusted Rand Index), qui est l’une des plus répandues dans le domaine de la classification non-supervisée. La mesure originale de Rand évalue l’accord entre deux partitions différentes d’un même ensemble de données. La version ajustée estime quelle partie de cet accord observé est due à la chance, et l’y soustrait afin d’obtenir une mesure plus précise de l’accord réel. La limite supérieure de cette mesure est  (les deux partitions sont rigoureusement identiques). La valeur  indique un recouvrement partiel équivalent celui observé dans deux partitions aléatoires. Les valeurs négatives indiquent un désaccord très fort entre les deux méthodes de classification.
Résultats
Nous avons réalisé trois niveaux d’analyse des résultats. Tout d’abord, nous avons comparé les clusters obtenus à partir des deux types de données (d’attributs et structurelles), afin de déterminer l’importance de leur recouvrement, et donc d’identifier leur nature complémentaire ou redondante. Nous présentons ensuite séparément des analyse plus approfondies pour ces deux types de données, afin d’examiner la spécificité de l’information apportée par chacun d’eux.
Comparaison des clusters
En ce qui concerne les données d’attributs, les clusters les plus pertinents ont été obtenus avec la méthode TwoStep, utilisée conjointement à la distance basée sur la log-vraisemblance ainsi qu’au critère d’optimisation BIC (Bayesian information criterion), et appliquée à trois attributs nominaux : le genre de l’étudiant, son département d’étude et sa classe. Nous avons ainsi obtenu  clusters. Pour l’analyse des données structurelles avec FastGreedy.
Notre objectif étant ici de comparer les clusters issus des deux approches, nous avons décidé d’effectuer trois analyses au moyen de la mesure de Rand, dont certaines ont nécessité des manipulations supplémentaires :
    • La première compare les deux clusterisations optimales ;
    • La deuxième prend les clusters issus des données structurelles comme référence, et a consisté à appliquer TwoStep de nouveau, mais en forçant cette fois l’algorithme à produire  clusters ;
    • La troisième est symétrique à la deuxième : nous avons utilisé la hiérarchie produite  par  FastGreedy  pour  identifier    clusters  issus  des  données structurelles et les comparer aux  clusters optimaux pour TwoStep.
Les matrices correspondant aux première et troisième analyses sont présentées dans le Tableau 1 (la matrice  de la deuxième analyse n’est pas présentée par manque de place). Elles montrent une répartition relativement uniforme des instances sur l’ensemble des clusters. C’est particulièrement flagrant, visuellement parlant, pour la matrice , dans laquelle les aucune cellule ne ressort nettement, ce qui aurait permis de détecter une intersection entre certains clusters.
Cette observation est confirmée par les mesures de Rand calculées, puisqu’on obtient respectivement des valeurs de ,  et  pour les trois matrices (la valeur maximale pour cette mesure étant ). Ceci signifie que l’accord entre les deux méthodes est si faible qu’il est équivalent à celui qu’on obtiendrait en considérant des classifications aléatoires. En d’autres termes, l’analyse des attributs et celle des données structurelles semblent fournir des clusters complètement indépendants. Il est à noter que cette conclusion ne semble pas liée aux attributs utilisés lors de la clusterisation. Bien qu’une modification de la sélection de ces attributs (que ce soit en en considérant plus, moins, ou en en substituant) puisse modifier de façon sensible la composition des clusters obtenus avec TwoStep, les résultats obtenus en termes d’indice Rand ajusté restent toujours du même ordre.

Analyse typologique des attributs

Cette section est dédiée d’abord à la caractérisation des clusters obtenus par l’analyse typologique des attributs, mais surtout à l’analyse de leurs implications comportementales. En d’autres termes, les questions sont : quelle est la portée opérationnelle des clusters constitués ? Quelles sont les différences, en termes de comportements, que ces clusters engendrent ?
Les clusters optimaux obtenus sont difficiles à qualifier de façon précise1. Néanmoins, certaines dominantes apparaissent. Ainsi, le cluster  est dominé par les étudiants de génie industriel ; le cluster  par les départements de droit et des relations internationales, le cluster  englobe de façon prioritaire des garçons étudiant en mathématiques ; le cluster  rassemble la majorité des gestionnaires. Pour tenter de comprendre en quoi ces clusters différaient et quelles étaient les répercussions de ces différences en termes comportementaux, nous avons opéré des tests de moyennes entre clusters en réalisant une ANOVA à un facteur. Les tests ont été effectués de façon classique, en utilisant également le logiciel PASW 18. Tout d’abord, un test d’homogénéité des variances entre clusters a été mené, puis la statistique  a été calculée. Nous avons retenu  comme seuil de significativité.
Il apparaît que les clusters trouvés diffèrent dans le rôle qu’ils attribuent à l’information détenue par leurs amis et à son importance dans les achats et dans l’attrait que représente pour eux un produit à la mode ou détenu par des amis ou des personnes détestées. Cependant, la difficulté à définir de façon précise ces clusters diminue leur portée opératoire.

Exploitation de l’information structurelle

Le réseau extrait des informations structurelles recueillies grâce à notre enquête peut être exploité de multiples façons. Notre première approche a consisté à tenter d’y détecter des communautés d’étudiants. Afin de mieux comprendre la nature de celles-ci, nous avons également effectué des analyses des différences de leurs scores moyens grâce en utilisant ANOVA. Au niveau global des  clusters, les différences de la variable  2 ne sont significatives que pour  items : le sentiment qu’a l’étudiant que ses meilleurs amis sont à la GSU, le fait de parler avec ses amis avant une acquisition et la facilité d’utilisation d’une carte de crédit pour s’endetter si un bien lui plaît. Nous avons alors effectué des tests post-hoc en utilisant l’algorithme LSD (Least Significant Difference t test), disponible sur PASW 18, qui analyse les différences entre chaque paire de clusters. Seules les différences entres quelques paires sont significatives ; la majorité des comparaisons n’aboutissant pas à une différence significative. Dès lors, il apparaît nécessaire d’approfondir l’analyse et les tentatives d’interprétation de ces clusters. Malheureusement cette analyse dépasse le cadre de cette communication.
Une autre utilisation intéressante consiste à s’intéresser aux propriétés individuelles des nœuds du réseau, toujours d’un point de vue structurel. Nous avons pour cela calculé différents indices de centralité, qui sont des mesures utilisées dans le domaine de l’analyse des réseaux complexes pour caractériser des nœuds importants. A chacun de ces indices correspond une définition différente de la notion de centralité, qui est présentée dans le Tableau 2.
Après avoir calculé ces valeurs pour tous les étudiants, nous nous sommes intéressés aux plus centraux d’entre eux. Pour illustration, quelques-uns sont identifiés sur la Figure 1. Nous avons alors voulu savoir si ces étudiants différaient du reste de la population dans certaines phases de leurs comportements d’achat, notamment ceux concernant l’utilisation de l’information. A cette fin nous avons réalisé ici encore une ANOVA classique, qui a fait apparaître quelques différences significatives.
Tout d’abord, au sein de notre échantillon, nous aboutissons à une correspondance entre les Hubs et les Autorités, même si dans les hiérarchies opérées par les deux classifications, les personnes n’apparaissent pas au même niveau. Il s’agit dans les deux analyses des mêmes personnes. Ces personnes aiment davantage les produits possédés par tout le monde et les gens qui suivent la mode. Ils apparaissent donc être davantage dans une logique de suivi et de renforcement d’une autorité, ce qui est totalement conforme avec la logique de la notion.
Les étudiants centraux en termes de betweenness prennent moins de conseils chez leurs amis pour un achat de téléphone portable et sont plus enclins à utiliser des produits considérés comme démodés. Ils tiennent moins compte du regard des autres. Peut-être leur position particulière fait-elle qu’ils sont plus sûrs d’eux et moins dépendant du jugement des autres.
Notion Définition Référence
Nombre de plus courts chemins passant par le nœud considéré. En d’autres Betweenness termes, un nœud d’autant plus central qu’un grand nombre de voies de [20] communications efficaces passent par lui.
Authority Une autorité est définie comme un nœud possédant un grand nombre de liens [21] orientés vers des nœuds importants appelés hubs.
Nœud important car il possède des liens provenant de nœuds de référence Hub appelés autorités. Les notions de hub et d’autorité sont issues de l’étude des [21] réseaux de page web.
Tableau 2. Différentes définitions de la notion de centralité d’un nœud dans un réseau.
Il n’existe pas de différences significatives concernant les autres éléments comportementaux testés quant à l’utilisation de l’information et le rôle des amis dans le type d’achat étudié. Au total, les traits comportementaux repérés dans ces catégories de nœuds centraux sont en conformité avec la logique des différentes notions. Ils témoignent de la puissance de l’approche structurelle ayant permis de les révéler.

Formation et coursTélécharger le document complet

Télécharger aussi :

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *