Expériences avec d’autres logiciels ANA et TermoStat
Tentatives d’essai de quelques logiciels : difficultés rencontrées On se souviendra que nous avons dressé un panorama d’outils dans I.3.5. et soussections relatives : 3.5.1., 3.5.2. et 3.5.3.). Aux logiciels décrits, il faut en ajouter quelques autres que nous avons recherchés et qui sont désormais indisponibles, en raison de la rapidité avec laquelle ces outils évoluent. Tel a été le cas de Terminology Extractor, outil pour l’extraction terminologique travaillant sur l’anglais et le français, développé par Etienne Cornu pour l’entreprise Chamblon Systems Inc. Cambridge (Ontario, Canada). Comme le téléchargement n’a pas donné de résultats, nous avons contacté l’auteur, qui nous a informée de l’indisponibilité de Terminology Extractor. La même situation s’est reproduite pour l’outil Mantex, conçu pour le système d’exploitation Macintosh en 2000 par P. Frath. Cet outil était fondé sur des techniques statistiques et visait l’identification des syntagmes répétés dans un corpus. Nous avons également essayé de tester LEXTER de D. Bourigault (1993), mais comme la propriété du logiciel est désormais détenue par Électricité De France (EDF) cela n’a pas été possible. Dans d’autres cas, les obstacles ont été l’insuffisance des manuels d’installation et d’utilisation de ces logiciels, limités à un fichier « Read me » de deux pages et évidemment adressés à des professionnels chevronnés : nous nous référons aux outils FASTR de Ch. Jacquemin et ACABIT de B. Daille. En ce qui concerne ACABIT, nous avons rencontré un empêchement supplémentaire : le système n’accepte que des données prétraitées. Ce qui implique le recours à des programmes extérieurs au logiciel et par conséquent des temps plus longs pour l’obtention des résultats144 . 2.2. Expérience d’extraction terminologique par le logiciel ANA Le premier logiciel que nous avons pu tester a été ANA (Apprentissage Naturel Automatique), développé par Chantal Enguehard entre 1992 et 1995145. Malgré son indisponibilité sur le marché, il est toutefois possible de tester ANA en contactant par mail l’équipe de Chantal Enguehard, qui continue à travailler sur cet outil. Nous rappelons qu’ANA est un logiciel basé sur deux méthodes algorithmiques, qui ne recourt à aucune ressource linguistique pour le traitement des textes : il s’agit d’un logiciel fondé uniquement sur des critères statistiques. Nous avons contacté Chantal Enguehard en septembre 2010, pour lui demander de tester ANA. Pour ce faire, nous avons proposé de traiter deux textes : un premier texte, Alger B_019, de petite taille (environ 1 500 mots), qui n’a pas pu être traité en raison de sa petite taille, ce qui confirme un point faible des approches statistiques ; un second texte, Corpus PTC, de taille légèrement inférieure à notre corpus d’étude actuel (environ 164 000 mots, pour un écart d’environ 15 000 mots)146. Les résultats de l’extraction des termes faite par ANA sur ce corpus textuel nous ont été fournis par courriel sous forme d’un tableau de texte. Ces résultats sont organisés par ordre alphabétique dans trois colonnes : dans une première, les candidats termes extraits ; dans une deuxième, le nombre d’occurrences ; dans la troisième, les segments de texte d’où le candidat terme a été extrait avec le nombre d’occurrences pour chaque segment : Cure de boisson 3 1 (cure de boisson, 30) (cures de boisson, 1) Figure 1 : exemple du tableau des résultats de l’extraction par ANA. Les candidats termes extraits par ANA sont au nombre de 2085. Aucune différence n’est faite entre termes simples et complexes, tous les candidats termes font l’objet du même fichier. L’auteure nous a informée que le seuil minimal de fréquence établi pour l’extraction a été de 3 occurrences et que le nombre de termes présents dans le bootstrap était de 7, mais nous ne savons pas quels étaient ces termes.
Résultats de l’expérience avec ANA : rappel et précision
L’évaluation de ces résultats a été faite en termes de rappel et de précision, suivant les pratiques courantes d’évaluation d’expériences de ce genre. Par rappel nous entendons le pourcentage de termes pertinents extraits par ANA par rapport aux termes manuellement identifiés comme pertinents dans le fichier soumis à l’analyse (corpus PTC). Par précision, en revanche, nous entendons les termes pertinents sur la totalité des termes extraits. Pour le calcul du rappel, dans le fichier de départ les termes ont été isolés manuellement à l’aide de balises, comme dans l’exemple suivant : phénomène de Raynaud. Comme on peut l’imaginer, l’annotation manuelle de tous les termes du corpus soumis à l’analyse aurait requis beaucoup de temps. Nous avons donc mené le calcul du rappel sur une portion du corpus, réunissant des textes variés et dont la taille atteint environ 26 000 mots (16% du corpus). Il s’ensuit que le taux de rappel que nous reportons est un taux approximatif. Les outils linguistiques de support à cette phase d’identification des termes présents dans la portion de corpus retenue pour le rappel ont été le GDT (Grand Dictionnaire Terminologique) et le TLFi (Trésor de la Langue Française informatisé). Ces mêmes outils nous ont servi lors du calcul de la précision. 1 504 termes ont été identifiés dans la portion de corpus choisie pour l’évaluation du rappel. Sur ces 1 504 termes, 527 figurent dans la liste des candidats termes fournie par ANA. Le taux de rappel approximatif est donc de 35%. En ce qui concerne la précision, sur les 2 085 candidats termes sortis par ANA nous en avons retenu 961, ce qui équivaut à un taux de précision de 46,09%. Dans ce qui suit, nous illustrons les critères appliqués dans la validation des candidats termes.
Critères retenus pour la validation des candidats termes
Afin de procéder à la validation des candidats termes, nous avons dû établir des critères pour distinguer les résultats pertinents. Outre la pertinence sémantique, nous avons pris en considération la pertinence syntaxique, c’est-à-dire les limites du découpage en ce qui concerne les termes complexes. Pour le critère de pertinence sémantique, nous avons retenu toutes les séquences ayant un statut terminologique dans le corpus, c’est-à-dire que le choix n’a pas été limité aux techniques et aux moyens thermaux, mais a été élargi également à des termes de la médecine et d’autres domaines connexes au domaine thermal (chimie, pharmacologie)147. Lorsqu’une séquence affichait un caractère quelque peu douteux, nous l’avons recherchée dans le corpus à l’aide du menu Locate Pattern du logiciel Unitex, car les résultats de l’extraction par ANA ne comportaient pas de concordances. En tête de liste, on trouve 83 suites de chiffres et de chiffres et de mots, extraits à tort comme candidats termes, comme par exemple les suites 000 cures, 10 à 20 minutes, 2009 thermes. Comme on peut l’imaginer, ces candidats termes ont tous été rejetés148. De même, nous avons rejeté : – les unités terminologiques complexes incomplètes : Agence Nationale d’Accréditation et d’Evaluation à la place de Agence Nationale d’Accréditation et d’Evaluation de la Santé, bain avec eau à la place de bain avec eau thermale ou bain avec eau courante ; – les séquences contenant au moins un terme mais qui résultent d’un mauvais découpage149 : b troubles urinaires, conclusion la cure, coxarthrose et la gonarthrose, cure est un moment privilégié; – les mots simples qui devraient faire partie d’unités polylexicales non terminologiques : faveur à la place de en faveur ; – les mots ou suites de mots introduits par des adjectifs numéraux ou ordinaux : deux essais, première étude ; – les séquences de mots introuvables dans le corpus telles qu’elles ont été repérées par ANA : piscine bain, bain douche en immersion bain, coût efficacité; – les mots ou suites de mots qui appartiennent à la langue générale et qui n’ont pas de sens spécifique dans le domaine d’étude : point de vue, âge moyen ; – les mots ou suites de mots étrangers : balneotherapy hydrotherapy. En revanche, les candidats termes retenus appartiennent aux typologies suivantes : – les termes, simples et complexes, afférents au thermalisme et désignant : 1) des techniques de soin ou des traitements : bain, cataplasmes de boue ; 2) des moyens thermaux : boue, eau minérale, algues thermales ; 3) des objets : maillot de bain ; 4) des structures : piscine thermale ; – les termes médicaux, simples et complexes, désignant : 1) des parties du corps : hanche, appareil digestif, muqueuses buccales ; 2) des pathologies : gonarthrose, incapacité fonctionnelle ; 3) des paramètres et des critères utilisés dans les études médicaux : aveugle du patient, indice algo fonctionnel ; 4) des soins et des médicaments : interventions chirurgicales, prothèse, 5) des organismes concernant la santé : Haute Autorité de Santé ; 6) des professions : médecins thermalistes, kinésithérapeute ; 7) des secteurs de la médecine : hydrologie, chirurgie dentaire ; 8) des entités humaines : population de curistes ; 9) des actions : accompagnement, accueil ; – les termes désignant des substances chimiques : radon, soufre, CO2 naturel ; – les préfixes ayant une pertinence dans la formation de termes médicaux comme gastro ; – les termes désignant des structures : centre de soins, hôpital thermal ; – les verbes et syntagmes verbaux à l’infinitif affichant une pertinence avec le domaine d’étude : prescrire une cure thermale.