Outilex et grammaires WRTN

Outilex et grammaires WRTN

Présentation générale du projet Outilex

Le projet Outilex regroupe 10 partenaires français, dont 4 académiques (Université de Marne-la-Vallée, Université de Rouen, le LIP6, et le LORIA) et 6 industriels (Systran, Thales Communication, Thales R&D, LCI, Lingway et le CEA). Le projet est coordonné par l’IGM et financé par le ministère de l’Industrie dans le cadre du Réseau national des technologies logicielles (RNTL). Préparé sous la direction de Maurice Gross, il a été lancé en 2002 et doit se terminer en 2006. Les méthodes de traitement des langues naturelles sont encore aujourd’hui, la plupart du temps, mises en oeuvre par des logiciels dont la diffusion est limitée.

De plus, on dispose rarement de formats d’échange ou de convertisseurs de formats qui permettraient de combiner plusieurs composants logiciels pour un même traitement. Quelques plates-formes font exception à cette situation générale, mais aucune n’est totalement satisfaisante. Intex [Silberztein, 1993], FSM [Mohri et al., 1998] et Xelda3 sont fermés au développement collaboratif. Unitex [Paumier, 2003b], inspiré d’Intex mais dont le code source est pour la quasi-totalité sous licence LGPL, ne fournit pas de formats XML.

Les systèmes NLTK [Loper et Bird, 2002] et Gate [Cunningham, 2002] n’ont pas de fonctionnalités de gestion de ressources lexicales. Outilex a donc pour objectif de combler ce manque en proposant des modules qui effectuent toutes les opérations fondamentales pour les traitements de texte écrit : traitements sans lexiques, exploitation des lexiques et des grammaires et gestion des ressources linguistiques. Les données manipulées à toutes les étapes du traitement sont structurées dans des formats XML compatibles avec les normes en cours de validation sur la représentation des ressources linguistiques, et également dans des formats binaires plus compactes permettant des traitements plus efficaces ; les convertisseurs entre ces formats sont fournis par la plate-forme.

Segmentation du texte

Le module de segmentation prend en entrée un texte brut ou HTML et il produit en sortie le texte segmenté en paragraphes, en phrases et en tokens dans un format XML (seg.xml) proche de celui proposé par le projet de norme ISO d’annotation morpho-syntaxique de textes (MAF) [Clément et de la Clergerie, 2005] élaboré dans le cadre du projet RNIL4 . Nous n’avons pas inclus dans la plateforme de traitements applicatifs opérant sur le modèle de texte représenté comme une séquence de tokens, ni sur le modèle encore plus simple du sac de tokens, mais de tels traitements nous semblent faciles à interfacer, en raison justement de la simplicité des modèles sous-jacents.

Dans le cas où le texte fourni en entrée à notre segmenteur est sous la forme d’un document HTML, les balises HTML de mise en page sont conservées dans le résultat, placées dans des éléments XML qui les distinguent des données textuelles. De cette manière, nous ne perdons aucune donnée présente dans le document original. L’opération de segmentation est donc réversible et il est donc possible de reproduire à tout moment le document (éventuellement modifié lors de futurs traitements) dans sa mise en page d’origine. Les règles de segmentation en tokens et en phrases sont basées sur la catégorisation des caractères définie par la norme Unicode.

À chaque token est associé un certain nombre d’informations telles que son type (mot, nombre, ponctuation, etc.), son alphabet (latin, grec), sa casse (mot en minuscule, commençant par une majuscule, etc.) ainsi que d’autres informations pour les autres symboles (signe de ponctuation ouvrant ou fermant, etc.). De plus, un identifiant est associé à chaque token qui sera conservé durant toutes les phases du traitement. Par exemple, la phrase La police a saisi 164 procèsverbaux jeudi dernier est segmentée comme dans la figure 3.1

Traitement par lexiques

Les traitements évoqués dans la partie précédente ont pour résultat une représentation du texte comme séquence de tokens. Nous pensons qu’une plateforme généraliste doit intégrer certaines notions fondamentales absentes de ce modèle, comme celle de mots composés ou expressions multi-mots, ou la séparation des emplois en cas d’ambiguïté. Les produits de la linguistique de corpus seuls [Schmid, 1994] ne sont pas de nature à résoudre les problèmes posés par de telles notions. L’un des moyens pour y parvenir est l’utilisation de lexiques et de grammaires.

L’utilisation de lexiques par les entreprises du domaine s’est d’ailleurs largement étendue au cours des dernières années. C’est pourquoi Outilex fournit un jeu complet de composants logiciels pour les opérations sur les lexiques. De plus, dans le cadre de sa contribution à Outilex, l’IGM a rendu publique une proportion substantielle des lexiques du LADL pour le français (109 912 lemmes simples et 86 337 lemmes composés) et l’anglais (166 150 lemmes simples et 13 361 lemmes composés).

Le jeu d’étiquettes pour le français combine 13 catégories morpho-syntaxiques, 18 traits flexionnels et divers traits syntaxico-sémantiques. Ces ressources sont proposées sous la licence LGPL-LR, créée dans le cadre d’Outilex et agréée par la Free Software Foundation. Les programmes d’Outilex sont compatibles avec toutes les langues européennes à flexion par suffixes. Des extensions seront nécessaires pour les autres types de langue.