Expériences avec d’autres logiciels ANA et TermoStat

Expériences avec d’autres logiciels ANA et TermoStat

Dans le chapitre précédent, nous avons présenté le logiciel Unitex et illustré quelques pistes pour des travaux en terminologie. Dans ce chapitre, nous relatons en revanche quelques expériences menées sur d’autres logiciels, basés sur d’autres types de méthodes (statistiques et hybrides). La recherche a privilégié des logiciels conçus en vue d’applications terminologiques, comme ANA et TermoStat. Nous avons cru que cela pouvait être intéressant, d’autant plus qu’Unitex n’est pas un logiciel conçu expressément pour la terminologie. Pendant notre parcours de thèse, nous avons aussi pu tester un analyseur syntaxique opérationnel, SYNTEX, qui n’a pas été non plus conçu en vue d’applications terminologiques, mais qui a été développé à partir des travaux sur le logiciel de structuration de terminologie LEXTER (BOURIGAULT 1994). Toutefois, nous nous difficultés qui ont accompagné ces tentatives, explicables surtout par l’indisponibilité de certains logiciels sur le marché et par la nécessité de posséder des compétences poussées en informatique. On se souviendra que nous avons dressé un panorama d’outils dans I.3.5. et sous- sections relatives : 3.5.1., 3.5.2. et 3.5.3.). Aux logiciels décrits, il faut en ajouter quelques autres que nous avons recherchés et qui sont désormais indisponibles, en raison de la rapidité avec laquelle ces outils évoluent. Tel a été le cas de Terminology Extractor, outil pour l’extraction terminologique travaillant sur l’anglais et le français, développé par Etienne Cornu pour l’entreprise Chamblon Systems Inc. Cambridge (Ontario, Canada). Comme le téléchargement n’a pas donné de résultats, nous avons contacté l’auteur, qui nous a informée de l’indisponibilité de Terminology Extractor. La même situation s’est reproduite pour l’outil Mantex, conçu pour le système d’exploitation Macintosh en 2000 par P. Frath. Cet outil était fondé sur des techniques statistiques et visait l’identification des syntagmes répétés dans un corpus.

Nous avons également essayé de tester LEXTER de D. Bourigault (1993), mais comme la propriété du logiciel est désormais détenue par Électricité De France (EDF) cela n’a pas été possible. Dans d’autres cas, les obstacles ont été l’insuffisance des manuels d’installation et d’utilisation de ces logiciels, limités à un fichier « Read me » de deux pages et évidemment adressés à des professionnels chevronnés : nous nous référons aux outils FASTR de Ch. Jacquemin et ACABIT de B. Daille. En ce qui concerne ACABIT, nous avons rencontré un empêchement supplémentaire : le système n’accepte que des données prétraitées. Ce qui indisponibilité sur le marché, il est toutefois possible de tester ANA en contactant par mail l’équipe de Chantal Enguehard, qui continue à travailler sur cet outil. Nous rappelons qu’ANA est un logiciel basé sur deux méthodes algorithmiques, qui ne recourt à aucune ressource linguistique pour le traitement des textes : il s’agit d’un logiciel fondé uniquement sur des critères statistiques.

Nous avons contacté Chantal Enguehard en septembre 2010, pour lui demander de tester ANA. Pour ce faire, nous avons proposé de traiter deux textes : un premier texte, Alger B_019, de petite taille (environ 1 500 mots), qui n’a pas pu être traité en raison de sa petite taille, ce qui confirme un point faible des approches statistiques ; un second texte, Corpus PTC, de taille légèrement inférieure à notre corpus d’étude actuel (environ 164 000 mots, pour un écart d’environ 15 000 mots)146. Les résultats de l’extraction des termes faite par ANA sur ce corpus textuel nous ont été fournis par courriel sous forme d’un tableau de texte. Ces résultats sont organisés par ordre alphabétique dans trois colonnes : dans une première, les candidats termes extraits ; dans une deuxième, le nombre d’occurrences ; dans la troisième, les segments de texte d’où le candidat terme a été extrait avec le nombre d’occurrences pour chaque segment : Les candidats termes extraits par ANA sont au nombre de 2085. Aucune différence n’est faite entre termes simples et complexes, tous les candidats termes font l’objet du même fichier. L’auteure nous a informée que le seuil minimal de fréquence établi pour l’extraction a été de 3 occurrences et que le nombre de termes présents dans le bootstrap était de 7, mais nous ne savons pas quels étaient ces termes.

 

Cours gratuitTélécharger le document complet

Télécharger aussi :

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *