La phase de traitement des données par Alceste

Du micro au macro

Les analyses de discours effectuées avec l’aide du logiciel ALCESTE m’ont permis de dépasser la représentation linéaire des types de profils parentaux proposée à l’aide d’un continuum (cf. chapitre 6). Elles ont mis en évidence des mécanismes d’influences entre représentations en présence dans les discours parentaux et ce choix linguistique, en lien avec le niveau macro-sociolinguistique, l’environnement social dans lequel ces informateurs vivent. Dès le début de cette étude, la taille envisagée de l’échantillon de personnes, et de fait, du corpus à venir, et un intérêt personnel pour l’usage d’outils numériques dans mes travaux de recherche (et d’enseignement), lorsqu’ils peuvent se révéler un soutien à la démarche, m’ont amenée à réfléchir à l’usage d’un logiciel de traitement informatique de données. Puis, comme je viens de le mentionner dans le chapitre précédent, les résultats de l’analyse de contenu thématique manuelle des données est venue conforter cette première impression. Il ne s’agit bien entendu pas d’obtenir les résultats de sa recherche de ce qui n’est qu’un outil paramétré en fonction des hypothèses du chercheur et dont il doit analyser et interpréter les résultats. Ce recours à l’outil numérique s’est révélé une aide précieuse et un véritable atout dans une méthodologie de la complexité. Après avoir examiné les fonctionnalités de différents logiciels comme ALCESTE (de Max Reinert), Hyperbase (d’Etienne Brunet), Lexico (d’André Salem) ou Tropes (de Pierre Molette et Agnès Landré à partir des travaux de Rodolphe Ghiglione), mon choix s’est arrêté sur ALCESTE. Cette sélection n’est pas fortuite. D’une part, ALCESTE a été conçu pour le traitement de corpus volumineux, de minimum 70 000 caractères jusqu’à 60 millions de caractères. La partie « parents » de mon corpus, analysée avec l’aide d’ALCESTE, compte 1 569 706 caractères (espaces non compris). Outre ces considérations techniques, la notion de « mondes lexicaux » au cœur de la classification d’un corpus étudié, développée par Max Reinert, semblait faire écho à mes propres réflexions théoriques, relatives à l’analyse des représentations sociolinguistiques au travers des mises en mots des interviewés. L’acronyme ALCESTE signifie « Analyse des Lexèmes Cooccurents dans un Ensemble de Segmentations des Textes Etudiés » (Reinert, 2007 : 189). C’est un logiciel d’analyse statistique de données textuelles. Il a été créé dans les années 1980, et sans cesse amélioré depuis, par son auteur Max Reinert105. Le développement de ce logiciel s’inscrit dans la lignée des travaux d’analyse des données, en particulier l’analyse factorielle des correspondances, de Jean-Paul Benzecri (1981, 1982), eux-mêmes influencés par le distributionnalisme de Bloomfield et Z.S. Harris. Comme son nom l’indique, il classifie le lexique d’un corpus, sous forme lemmatisée, en repérant les co-occurrences. Il fonctionne donc par distribution, classification du vocabulaire en fonction des ressemblances et dissemblances en présence. Cependant, ALCESTE n’est pas un simple logiciel de comptage lexicométrique, le logiciel segmente le texte traité en unités de contextes significatives : « Cette méthodologie est associée à une orientation particulière des recherches en analyse des données textuelles (1986). Il s’agit, non pas de comparer les distributions statistiques des « mots » dans différents corpus, mais d’étudier la structure formelle de leurs cooccurrences dans les « énoncés » d’un corpus donné. A ce titre, elle renoue avec l’approche distributionnelle évoquée par Benzécri, mais avec une volonté plus affirmée d’être d’abord une « analyse du discours » : en effet, on se propose de mettre en évidence une dimension d’organisation du texte qui « mémorise » ses conditions de production. » (Reinert, 1993 : 9) L’analyse n’est donc pas fondée uniquement sur les présences ou les absences d’un mot mais sur l’environnement d’un mot dans un texte, dans des segments de textes, ce qui place cette méthodologie fondamentalement du côté de l’analyse de discours. L’auteur considère ces unités de contextes comme des « représentations élémentaires » (Reinert, 1990 : 25), qui une fois regroupées forment des « contextes-types » (ibid.) à envisager comme des traces discursives de représentations particulières et de la prise en charge énonciative de ces dernières par des sujets-énonciateurs (Reinert, 1993). Ces traces discursives, identifiées à partir des mots-pleins de chaque unité de contexte, sont regroupées en classes qui représentent des « mondes lexicaux » propres à différents sujets-énonciateurs : « Les mondes lexicaux étant définis statistiquement, ils renvoient à des espaces de référence associés à un grand nombre d’énoncés. Autrement dit, ils superposent, dans un même « lieu », différents moments de l’activité du sujet, différents « points de vue ». Ce lieu agit donc comme un attracteur pour cette activité. Un sujet l’habite d’une certaine manière. Dans le cas où ce sujet est collectif, ces « lieux » deviennent des sortes de « lieux communs » (à un groupe, une collectivité, une époque, etc.). De ce fait, ils peuvent s’imposer davantage à l’énonciateur qu’ils ne sont choisis par lui, même si celui-ci les reconstruit, leur donne une coloration propre. Un recouvrement avec la notion de représentations sociales apparaît donc ici assez clairement : dans les deux cas, ces notions évoquent un lieu situé entre les représentations individuelles et les préconstruits culturels. Pour désigner ces « lieux » ou « points de vue » plus généraux, nous utiliserons le terme de monde qui est moins spécifique d’une théorie, d’un type de construction sociale. Ce terme de monde n’a pas de connotation « réaliste ». » (Reinert, 1993 : 12)

Le fonctionnement d’ALCESTE

L’utilisation du logiciel ALCESTE comprend deux phases indissociables : une phase importante de préparation du corpus en fonction des contraintes inhérentes au fonctionnement du logiciel mais aussi d’après les objectifs de la recherche ainsi que des contraintes liées aux choix méthodologiques ; une phase de traitement c’est-à-dire l’analyse des données par le logiciel. Après cela, les résultats sont fournis dans un rapport détaillé que le chercheur doit à son tour analyser et interpréter pour tenter de répondre à ses interrogations. Max Reinert insiste sur le caractère exploratoire d’une analyse ALCESTE. Certes, le corpus est calibré en fonction de choix méthodologiques et d’hypothèses de recherche mais une fois passé dans le logiciel ce corpus peut apparaître quelque peu différent de ce qui avait été envisagé et c’est 248 entre autres ce qui est heuristique.

La préparation du corpus

L’usage d’ALCESTE nécessite tout d’abord une préparation particulière du corpus que l’on souhaite traiter afin qu’il ne contienne aucune, ou le moins possible, d’ambiguïtés pour le logiciel. Le manuel précise qu’il faut effectuer un « léger « toilettage » » ((Reinert, 2008 : 9) du corpus à traiter pour que certains signes de transcription choisis ne créent pas d’interférence avec les codifications adoptées par le concepteur pour adresser des instructions au logiciel. A titre d’exemple, il ne doit y avoir aucune astérisque (*) dans le texte car c’est un signe primordial pour ALCESTE dans le traitement des données (cf. infra « les UCI »). Sans trop entrer dans les détails, ce nettoyage nécessite notamment de mettre tout le document à traiter en minuscule. Les majuscules, elles, sont réservées à ce que l’on souhaite que le logiciel ne prenne pas en compte. J’avais pour ma part mis en majuscules l’ensemble de mes interventions afin qu’ALCESTE analyse les discours suivis des interviewés sans mon influence. Cependant, Max Reinert m’a indiqué que ce n’était pas forcément nécessaire dans la mesure où le logiciel déterminerait une classe à part, qui correspondrait à mes mises en mots, si elles étaient fortement significatives et distinctives par rapport au reste du corpus. Il a donc fait passer mon corpus avec mes interventions, en minuscules, et cela ne modifiait pas le nombre et la teneur des classes trouvées. Par ailleurs, ces données, en majuscules, ne sont pas absentes du traitement. Elles sont mises à part et on peut les retrouver dans les résultats produits par ALCESTE. Une autre modification importante est celle du tiret bas (_) pour introduire une liaison. En effet, ALCESTE ne reconnaît pas le trait d’union classique (-). Ainsi, dans les expressions « grand-mère » ou « peut-être », liées par un trait d’union, le logiciel compte à part les mots « grand » et « mère », ou « peut » et « être » et ne perçoit pas qu’il s’agit d’un seul signe linguistique « grand-mère » composé de deux mots. Cela peut, on le comprend aisément, modifier les résultats obtenus par calculs des co-occurrences. Aussi, il faut insérer un tiret bas (_) chaque fois que l’on souhaite garder la forme composée d’un mot. Je me suis donc attachée à respecter cette règle en portant une attention particulière sur les mots du lexique de la famille et les noms de pays, ou de lieux, comme « Grande_Bretagne », catégorisations qui pouvaient avoir un impact sur mes analyses et qu’il ne fallait donc pas biaiser. Les chiffres ont tous été transcrits en toutes lettres, associés à des tirets bas dans le cas des grands nombres. Bien entendu, toutes les indications relatives à la situation d’énonciation, entre crochets ou parenthèses et les marques de l’oralité (amorces de mots, allongements de syllabes…) ont été 249 supprimées. En outre, il est fortement conseillé de conserver une ponctuation classique des phrases du texte car elle aide le logiciel à calculer les unités de contexte, c’est-à-dire à découper le texte en unités signifiantes. Cela rejoint la réflexion ouverte concernant la subjectivité introduite par la transcription – traduction – de données orales en données écrites pour la constitution d’un corpus. J’avais pour ma part fait le choix de ne pas utiliser de signes de ponctuation dans ma transcription principale du corpus « parents », dans la mesure où ils étaient susceptibles d’orienter les interprétations par la suite (cf. chapitre 4). Au moment de traiter ces données via le logiciel ALCESTE, j’ai donc dû supprimer les signes de pauses (/ ou // ou ///) non interprétables et j’ai inséré une ponctuation classique à l’aide d’une virgule ou d’un point pour signifier l’équivalent d’une pause longue (//) ou d’une interruption de discours (///). En revanche, je n’ai pas indiqué les pauses courtes et je n’ai pas repris l’ensemble de la transcription pour respecter toutes les règles de ponctuation du français, afin de limiter cette introduction de biais interprétatifs. Au début de ce descriptif, j’ai l’objectif d’introduire « le moins possible » d’ambiguïtés dans cette transcription et non pas l’absence d’ambiguïté, notamment du fait de ces adaptations nécessaires, inévitablement en partie subjectives. Ces concessions sont nécessaires pour l’usage de ce logiciel et il faut naturellement en prendre la mesure. 

La phase de traitement des données par Alceste

L’analyse ALCESTE repose sur quatre étapes de calcul, faites de plusieurs opérations chacune. La première étape, l’étape A concerne la reconnaissance des UCI créées et de l’ensemble du vocabulaire en présence dans le corpus. Il constitue des dictionnaires avec les mots-pleins, les mots-outils, etc. : il repère et catégorise. C’est également l’étape où le logiciel procède à la transformation du vocabulaire du corpus en formes réduites, c’est-à-dire à sa lemmatisation. L’étape B correspond au découpage du corpus en unités de contexte élémentaires (désormais UCE) et à leur regroupement en fonction de la distribution du vocabulaire. Les UCE sont des segments de texte définis par le logiciel. Elles sont calculées à partir d’une certaine longueur (nombre de mots) et de la ponctuation présente dans le texte. La définition relativement arbitraire des segments de texte UCE participe pleinement de la méthodologie développée au travers de ce logiciel : 251 « Nous ne donnons aucun contenu particulier, a priori, à nos fragments de texte qui n’ont pas à circonscrire une quelconque signification [contrairement à la méthodologie d’analyse de contenu thématique]. Ils ne délimitent que des moments dans l’activité discursive. D’où le nécessaire aspect arbitraire de leur définition. » (Reinert, 2006 : 6) Les regroupements d’UCE s’effectuent ensuite par classification du vocabulaire dominant. ALCESTE effectue deux classifications descendantes hiérarchiques de ces UCE. Il procède à une concaténation des UCE en UC qui seront fonction d’un nombre « n1 » de mots pour la première classification et un nombre « n2 » de mots dans la deuxième classification. Dans l’analyse standard, « n1 » correspond à 10 mots et « n2 » à 12 mots. Quand le logiciel va fabriquer ces UC, il va donc compter dans les UCE le nombre de mots classés. Tant qu’il n’aura pas atteint le nombre « n1 » ou « n2 » il agglomérera des UCE. Cette double classification permet de vérifier la stabilité des classes obtenues. L’étape C sert à la mise en forme des résultats en fichiers principaux : les classes déterminées, leur dépendance mutuelle, leur vocabulaire dominant, la répartition des mots étoilés et des mots-outils caractéristiques par classe. L’étape D consiste à la réalisation de calculs complémentaires, en particulier la mise en évidence des UCE les plus significatives pour chaque classe qui permettent de resituer le vocabulaire dominant déterminé dans son environnement textuel. C’est également dans cette dernière période que les classifications ascendantes hiérarchiques et la détermination de souscorpus associés aux classes sont effectuées. Quelques précisions complémentaires restent à énoncer concernant le fonctionnement d’Alceste : – L’analyse et la définition des classes reposent sur des calculs à partir des motspleins. Les mots-outils viennent ensuite compléter les informations transmises par classe. – la force de représentativité des mots du lexique est déterminée à partir du calcul statistique du Khi2 . Le test du Khi2 est basé sur la comparaison entre les effectifs observés d’un terme et les effectifs théoriquement attendus dans un énoncé où les proportions de chaque item seraient égales pour chaque classe. Le Khi2 permet de mesurer la force du lien qui unit un élément à un autre. Plus le Khi2 sera élevé, plus le mot aura contribué à la construction de la classe. – La question de la lemmatisation : le logiciel ALCESTE effectue une réduction des formes à la racine commune qui se base sur le corpus analysé et sur la reconnaissance automatique des suffixes du français. Cette lemmatisation pose 252 question dans une étude du discours qui accorde une importance aux dénominations, des langues ou des groupes de locuteurs par exemple, attribuées par les locuteurs en tant que catégorisation du monde particulière, et de ce fait en tant que traces discursives de leurs représentations sociolinguistiques. Aussi, chaque fois que cela a été nécessaire, je suis retournée à la source, aux transcriptions pour ne pas introduire de biais dans l’interprétation. Par classe, ALCESTE fournit également la liste des termes associés à chaque lemme analysé, c’est-à-dire dans laquelle se trouve les formes initiales et les formes réduites. Dans cette utilisation d’ALCESTE, j’ai eu le privilège d’être accompagnée par Max Reinert, concepteur de ce logiciel et Philippe Jeanne, ingénieur linguiste à l’université de Rouen. Ces derniers m’ont délivré des conseils avisés pour la passation de ce corpus sous ALCESTE, de la préparation fine du document au paramétrage du logiciel, jusqu’à la découverte d’une grande partie des potentialités d’un tel outil. Leur regard expert et extérieur a énormément apporté à cette réflexion. C’est ainsi que mon corpus « parents » a tout d’abord été passé deux fois sous la toute dernière version ALCESTE, non commercialisée, sans interface graphique complémentaire. La lecture analytique de ces résultats bruts m’a appris à mieux comprendre les mécanismes de calcul et le fonctionnement interne du logiciel, qui procède à la classification des co-occurrences du lexique en construisant des tableaux booléens. A l’intérieur de ces tableaux le 1 indique la présence d’un mot dans un segment de texte donné, en tant que forme graphique, et le 0 correspond à une absence dans le même segment. Le premier traitement a été effectué avec le corpus brut en intégralité. Le deuxième passage était consacré aux mots-pleins. Puis, le corpus a été passé sous ALCESTE avec le logiciel commercialisé, avec des interfaces graphiques qui permettent d’illustrer les résultats du rapport détaillé obtenu, par schématisation. Les résultats très proches, avec un nombre de classes identiques et des contenus lexicaux similaires ont confirmé la stabilité des résultats fournis dans ces rapports. Puis, lors d’une dernière analyse, sur un conseil expert, ce corpus a été soumis une dernière fois à ALCESTE avec un paramétrage des UCE différent. Les résultats obtenus ont alors montré une autre vision des données recueillies, pressentie par les premières analyses manuelles. Cette dernière démarche provenait de la volonté d’augmenter le pourcentage d’UCE du corpus classées par ALCESTE. En effet, les premières analyses, avec un paramétrage par défaut du plan d’analyse, classaient 67% des UCE du corpus. Par le biais d’un nouveau paramétrage de calcul des UCE avec des longueurs de 8 et 10 mots pour les classifications hiérarchiques descendantes, 72% des UCE sont classées. Les résultats de cette dernière analyse du corpus sont ceux qui ont été retenus pour mes interprétations..

Cours gratuitTélécharger le document complet

Télécharger aussi :

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *