Le logiciel Unitex présentation et possibilités d’exploitation pour le travail terminographique

Le logiciel Unitex présentation et possibilités d’exploitation pour le travail terminographique

Le recours à des outils informatiques est désormais incontournable en terminographie, au point que L’HOMME affirme que « Actuellement, toute recherche portant sur des termes fait appel à une forme ou une autre de traitement informatique, si bien que la distinction entre terminotique et terminographie ne se justifie que dans un contexte pédagogique. » (2004 : 17) Comme nous l’avons vu dans I.3., depuis le début des années 1990 de nombreux logiciels ont été développés pour automatiser au moins en partie le travail terminographique. Basés sur des méthodes statistiques, symboliques ou hybrides, les logiciels conçus dans une optique terminographique accomplissent généralement les tâches suivantes : extraction de candidats termes, création de réseaux notionnels (ontologies), alignement de termes (pour les travaux sur plusieurs langues). Dans ce chapitre nous présentons le logiciel Unitex, qui n’a pas été conçu expressément pour la terminologie mais qui peut révéler des possibilités d’exploitation non négligeables dans ce domaine.

Les besoins des terminologues : des concepts, des termes, des traductions

Pour décrire un domaine, les terminologues ont besoin de repérer les concepts qui le structurent et les termes utilisés pour exprimer ces derniers. Les types d’informations recherchées sur les termes peuvent varier en fonction de l’application visée, mais généralement ces informations sont : la définition du terme, le contexte d’usage, les variantes éventuelles de ce terme. Les définitions sont souvent élaborées par les terminologues sur la base des informations repérées dans le(s) corpus textuel(s) de support à leurs recherches. Le contexte, en revanche, est typiquement une portion – une phrase, un passage – du corpus dans laquelle le terme apparaît, pour en montrer l’usage en discours. Quant aux variantes, ce sont les différentes dénominations qu’un concept peut se voir attribuer. Il est important de les identifier et de les répertorier pour éviter de produire des entrées doubles pour un même concept (que ce soit dans un glossaire ou dans une banque de terminologie). Lorsqu’un terminologue se trouve face à deux ou plusieurs variantes pour un même concept, il opère une sélection sur la base des critères suivants : la fréquence et la répartition dans le corpus, le niveau de langue (la langue standard est préférée aux variétés régionales ou argotiques), la primauté de l’écrit sur l’oral. Comme le courant traductionnel est un des courants les plus productifs en terminologie, les terminologues ont aussi besoin de traductions d’une langue source vers une ou plusieurs langues cibles. Le logiciel Unitex présentation et possibilités d’exploitation pour le travail terminographique.

Unitex : un outil à base de méthodes symboliques

Développé par Sébastien Paumier (2002), Unitex est un logiciel qui réunit différents programmes pour le traitement de textes en langues naturelles sur la base de ressources lexicales. Plus précisément, il s’agit de ressources issues des travaux du lexiquegrammaire – dictionnaires électroniques, des tables et des grammaires locales – qui, grâce au réseau RELEX, ont été étendus à d’autres langues. Le logiciel, dont la dernière version est la 3.1 bêta122, est téléchargeable sous une licence LGPLLR depuis le site du LIGM123 . Les langues actuellement disponibles dans l’outil sont : l’allemand, l’anglais, l’arabe, le coréen, l’espagnol, le finnois, le français, le géorgien ancien, le grec (ancien et moderne), l’italien, le norvégien, le polonais, le portugais (du Portugal et du Brésil), le serbe, le russe et le thaï. Unitex n’a pas besoin d’un système opérationnel précis pour être utilisé : il marche tant sur Windows que sur Linux et Macintosh OS. Le logiciel accepte des données brutes (c.-à-d., qui n’ont pas été prétraitées), la seule condition à respecter pour pouvoir analyser un texte est de le coder en Little-Endian Unicode124. Il n’y a pas de restrictions sur la taille des textes non plus : étant basé sur des méthodes symboliques, le logiciel peut analyser même des textes courts, à la différence des outils statistiques. En outre, le logiciel est désormais partie intégrante du projet Gramlab, qui vise à mettre à disposition des entreprises des logiciels libres d’accès et gratuits125 Nous renvoyons au manuel d’utilisation126 pour les procédures d’installation du logiciel. Le manuel, tout comme les menus du logiciel, est en langue anglaise. 

La phase de prétraitement

Lorsque l’on utilise Unitex pour la première fois, le logiciel demande à l’utilisateur de choisir un répertoire de l’ordinateur où il veut stocker ses données. Si l’on travaille sur plusieurs langues – comme dans notre cas – un répertoire différent est créé pour chaque langue. Dans ce répertoire, le logiciel installe six dossiers : Cassys, Corpus, Dela, Elag, Graphs, Inflection. L’utilisateur place dans le dossier Corpus les fichiers à soumettre à l’analyse : il sera ainsi possible de les sélectionner depuis le menu Text. Une fois ouvert le texte, le logiciel ouvre une interface qui demande si l’on veut prétraiter le texte. Par défaut, le logiciel applique au texte les dictionnaires disponibles pour la langue choisie. Si c’est nécessaire à de l’analyse, on peut demander de produire aussi l’automate du texte à la fin de l’étape de prétraitement, en cochant la case Construct Text Automaton (en bas à gauche) : Figure 2 : l’interface permettant l’accès au prétraitement. Trois opérations fondamentales sont exécutées pendant la phase de prétraitement : le comptage des formes du texte, l’étiquetage de ces formes, la segmentation du texte en phrases. Les résultats de ces opérations sont affichés dans trois fenêtres différentes. Ainsi,  La construction de l’automate du texte peut aussi être demandée aussi par la suite, en choisissant Construct FST-Text depuis le menu Text. – 124 – dans la première fenêtre (Token List) sont données toutes les formes128 présentes dans le texte (signes diacritiques inclus) avec le nombre d’occurrences. Il est possible d’afficher la liste par fréquence (ordre décroissant) ou par ordre alphabétique. La deuxième fenêtre, Word Lists, est divisée en trois sous-fenêtres : une contenant les mots simples, une autre listant les formes composées (dans ces deux premiers cas, il s’agit des formes reconnues par les dictionnaires appliqués) et une dernière dans laquelle sont listées toutes les formes non reconnues par les dictionnaires. Figure 3 : la fenêtre Word Lists. Les formes étiquetées se différencient des formes inconnues tout d’abord par l’utilisation de couleurs : bleu, rouge, vert et jaune. Elles sont suivies d’une série de codes morphosyntaxiques : outre la catégorie grammaticale, pour chaque forme sont donnés, dans le cas du dictionnaire DELA du français, le genre et le nombre (personne, mode et temps dans le cas des verbes). Certaines formes se voient attribuer une étiquette sémantique (par exemple, Conc pour les noms concrets). Des informations sur la fréquence du mot dans la langue sont explicitées par l’étiquette « z », qui prend des valeurs numériques de 1 à 3, selon que le mot est un mot très courant (z1), un mot spécialisé (z2) ou un mot très spécialisé (z3). L’entrée est en bleu, la forme canonique en rouge, les informations sur la catégorie grammaticale, la fréquence et d’éventuelles étiquettes sémantiques sont en vert, alors que les informations relatives à la flexion sont en jaune. En guise d’exemple, considérons les deux entrées suivantes dans le DELA du français : 1) buccale,buccal.A+z2:fs ; 2) sels minéraux,sel minéral.N+NA+Conc+z1:mp. L’exemple 1) nous décrit la forme buccale : c’est un adjectif féminin singulier, dont la forme canonique est buccal et l’emploi relève d’un niveau de langue quelque peu technique (z2). L’exemple 2) définit une forme composée, sels minéraux : il s’agit d’un 128 Token ne correspond pas à mot : il s’agit de n’importe quel caractère du texte, même un espace est un token. – 125 – nom composé masculin pluriel (la forme canonique est sel minéral) du type Nom-Adjectif, qui désigne un nom concret et dont l’emploi est fréquent dans la langue. Suite aux dernières modifications opérées sur le logiciel, il est désormais possible de vérifier rapidement si une unité lexicale fait partie de la nomenclature des dictionnaires électroniques. Depuis le menu DELA, on sélectionne Lookup : on accède ainsi à une fenêtre qui permet de choisir les dictionnaires dans lesquels on veut vérifier une unité lexicale donnée : Figure 4 : fenêtre Dictionary Lookup. En ce qui concerne la liste des mots inconnus, elle peut être très intéressante dans une optique terminographique : souvent, bon nombre des formes inconnues sont des néologismes ou des termes propres à un domaine donné, qui ne sont donc pas inclus dans les dictionnaires électroniques. La liste peut se révéler un point de départ pour le repérage des termes que l’on recherche. D’autres formes inconnues peuvent être des entités nommées129 – qui présentent elles aussi un intérêt du point de vue terminographique –, des fautes de frappe et des mots étrangers. La troisième et dernière fenêtre présente le texte segmenté en phrases : le symbole {S} (= sentence) délimite une portion de texte que le logiciel a reconnu comme une phrase, sur la base des signes diacritiques (notamment, les points) et des lettres capitales. Une fois achevée la phase de prétraitement, on peut commencer à mener des recherches en exploitant les informations fournies en fonction de l’application visée. 

Formation et coursTélécharger le document complet

Télécharger aussi :

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *