L’analyse automatique des textes grecs.
Concernant la reconnaissance automatique des expressions multi-mots, les recherches actuelles en TAL suivent trois grandes approches : • L’approche linguistique ou symbolique, qui s’appuie sur la description et la modélisation explicites et exhaustives de la langue naturelle. Cette méthode consiste à utiliser une base de règles construites à la main, souvent exprimées sous forme de graphes d’automates finis (cf. D. Perrin 1989, S.-C. Kleen 1956) et exploite de manière précise et exhaustive le contexte local dans lequel apparaissent les expressions multi-mots. Dans le cadre de cette approche, la construction de ressources linguistiques est une étape d’une importance capitale. L’avantage de cette approche est qu’elle est adaptée au profil des linguistes qui travaillent dans ce domaine. Du point de vue applicatif, un système qui repose sur l’approche symbolique atteint une précision importante (E. Roche et Y. Schabes 1997, J. Hobbs et al. 1996). De plus, de tels systèmes se caractérisent par une lisibilité facile. En revanche, l’impossibilité d’atteindre une couverture lexicale exhaustive constitue leur inconvénient majeur. A ce problème s’ajoute aussi la difficulté importante au niveau de la gestion et de la maintenance des ressources. Toutefois, une fois ces problèmes identifiés, des solutions peuvent être conçues pour faciliter la tâche de la mise à jour. GraalWeb est un système de bibliothèque décentralisée qui permet de partager et gérer en-ligne des grammaires locales de descriptions linguistiques (M. Constant 2007). De plus, des outils d’enrichissement et de validation automatisés des dictionnaires électroniques morphologiques ont été développés pour le grec moderne (M. Constant et A. Yannacopoulou 2003). • L’approche statistique, qui n’utilise que peu ou pas d’informations linguistiques explicites. Elle consiste en l’acquisition de connaissances par apprentissage automatique à partir de corpus annotés manuellement par des experts. Le système est ensuite entraîné de manière supervisée ou non-supervisée à analyser des textes. La désambiguïsation des unités lexicales s’opère en déterminant la plus probable des interprétations possibles. Le principal inconvénient de cette approche est le coût.
Enfin, l’approche hybride, qui combine l’approche symbolique et l’approche statistique. Elle couple le traitement statistique avec un minimum de ressources linguistiques afin de traiter des phénomènes qui présentent une fréquence restreinte dans le but d’effectuer l’entraînement à l’apprentissage automatique. Pour ce qui est du français, une ressource importante issue de méthodes hybrides est le corpus arboré FRENCH TREEBANK (A. Abeillé et al. 2003) qui est annoté à trois niveaux : morphosyntaxique (tagging), syntagmatique (chunking) et fonctionnel (parsing). L’annotation morphosyntaxique a été effectuée à l’aide des dictionnaires électroniques morphologiques. Les mots composés ont été annotés automatiquement dans le corpus à l’aide d’un programme basé sur des expressions régulières pour reconnaître les nombres écrits en lettres (e.g. mille deux cent quatre vingt-seize) et d’un dictionnaire pour identifier les autres types de mots composés (incluant notamment des extraits des dictionnaires accessibles sous INTEX). Citons aussi les travaux de B. Daille (1995, 1996), qui utilise des méthodes combinées (linguistiques et statistiques) pour l’extraction de terminologie.Rappelons que, dans le cadre de la présente étude, nous avons effectué le recensement (cf. II, 4.2.1-4.2.3), l’étude de la structure lexicale interne (cf. III, 6 et 7), l’étude syntaxico- sémantique (cf. IV, 9-10) et la représentation formalisée (cf. V, 11.3.1-11.3.3) des N (E+DET:G) N:G du grec moderne en vue de leur reconnaissance automatique dans les textes grecs. La méthode que nous appliquons ici repose sur l’approche linguistique et n’utilise aucune information statistique. Cette méthode nécessite la construction de ressources linguistiques de large couverture, représentées sous un formalisme aisément traitable. Dans cette partie, nous abordons d’abord les problèmes de reconnaissance lexicale automatique propres aux N (E+DET:G) N:G grecs. Ensuite, nous présentons les méthodes de représentation formalisée que nous avons choisies pour le traitement automatique de chacune des sous-catégories identifiées. Nous illustrons nos choix par des exemples de nos.
Comme le signale S. Voyatzi (2006 : 351), depuis longtemps, on insiste sur la nécessité d’identifier les différents types d’expressions figées102 dans le cadre de différentes tâches du Les noms composés sont, par définition, des formes multi-mots. Dans la majorité des cas, pour leur identification dans les textes, des bases de données qui fournissent leur forme in extenso et toutes leurs propriétés sont nécessaires. Cependant, la reconnaissance lexicale automatique des noms composés est souvent compliquée. Un des principaux problèmes qui gênent la reconnaissance lexicale automatique des N (E+DET:G) N:G est de nature linguistique et est propre à leur structure lexicale interne : la présence de différents types de Nous avons déjà montré qu’un nombre considérable de N (E+DET:G) N:G est susceptible de variation lexicale, orthographique, phonologique, syntaxique ou substitution par des formes abrégées. Nous avons étudié en détail ces phénomènes de variation dans II, 5. Rappelons ici quelques cas intéressants : Dans cet exemple, le N (E+DET:G) N:G διάσειση του εγκεφάλου/commotion cérébrale a une variante de type AN, à savoir εγκεφαλική διάσειση/commotion cérébrale. Ce type de variante syntaxique est décrit dans la colonne I, intitulée N DET:G N:G=N:G-a N. Nous avons donc marqué « + » pour cette entrée dans la colonne I. Ensuite, dans la colonne J, nous avons noté l’adjectif morphologiquement lié au N:G qui donne lieu à la formation du AN.