Les unités multi-mots dans l’étiquetage morpho-syntaxique et l’analyse syntaxique

Les unités multi-mots dans l’étiquetage morpho-syntaxique et l’analyse syntaxique

Unités lexicales multi-mots

Dans le consensus actuel du Traitement Automatique des Langues (TAL), les expressions multi-mots forment des unités linguistiques aux comportements lexicaux, syntaxiques et/ou sémantiques particuliers. Elles regroupent les expressions figées et semi-figées, les collocations, les entités nommées, les verbes à particule, les constructions à verbe support, les termes, etc… (Sag et al., 2002). Leur identification est donc cruciale avant toute analyse sémantique. Elles apparaissent à différents niveaux de l’analyse linguistique : certaines forment des unités lexicales contigues à part entière, comme par exemple cordon bleu, San Francisco, par rapport à, d’autres composent des constituants syntaxiques comme les phrases figées, telles que N0 prendre le taureau par les cornes, N0 prendre N1 en compte, ou les constructions à verbe support, comme N0 donner un avertissement à N1 et N0 faire du bruit.

Dans ce mémoire, nous nous focalisons sur les MWEs continues qui forment des unités lexicales auxquelles on peut associer une étiquette morpho-syntaxique. Par exemple, tout à fait est un adverbe, à cause de est une préposition, table ronde est un nom. Les variations morphologiques et lexicales sont très limitées, et les variations syntaxiques très souvent interdites114 . De telles expressions sont généralement analysées au niveau lexical. Par exemple, le mot vin, quand il désigne la boisson, peut être associé à un mot représentant une couleur prise parmi la liste restreinte suivante : rouge, blanc ou rosé.

Le mot orange n’est en revanche pas accepté. Le mot caisse noire est un autre exemple de limitation lexicale car, dans le cas présent115 , caisse ne peut être associé qu’au mot noire. Par la suite, nous utilisons le terme mot composé ou unité polylexicale. Les unités polylexicales peuvent être recensées dans des dictionnaires électroniques ou des grammaires locales. Les dictionnaires électroniques sont des listes qui associent des formes lexicales à des informations linguistiques comme les catégories grammaticales ou certains traits sémantiques tels que humain ou concret. Les grammaires locales (Gross, 1997; Silberztein, 2000) sont des réseaux récursifs de transitions décrits sous la forme de graphes d’automates finis. Chaque transition est étiquetée par un élément lexical (mange par exemple), un masque lexical correspondant à un ensemble de formes lexicales encodées dans un dictionnaire ( symbolisant toutes les formes fléchies dont le lemme est manger) ou un élément non-terminal référant à un autre automate.

Elles sont très utiles pour décrire de manière compacte des MWEs acceptant des variations lexicales. Un système de transduction permet d’annoter les expressions décrites, comme la catégorie grammaticale ou l’analyse des composants internes pour les entités nommées (Martineau et al., 2009). La figure 5.1 montre une grammaire locale sous forme de graphe présente dans la distribution d’Unitex. Cette grammaire permet d’identifier des nombres en toutes lettres simples (cent) et composés (cent et un). En sortie, les mots reconnus se voient attribuer une ou plusieurs étiquettes morpho-syntaxiques grâce à une opération de transduction (inscriptions en gras). Dans le cas présent, 4 entrées lexicales sont créées pour les catégories grammaticales suivantes : D, NC, ADJ et PRO.

Identification des mots composés

La reconnaissance automatique des mots composés est, la plupart du temps, réalisée à l’aide de ressources lexicales construites manuellement ou apprises automatiquement. La méthode la plus simple est fondée sur la consultation de lexiques comme dans (Silberztein, 2000). Le plus grand désavantage est que cette procédure se base entièrement sur des dictionnaires, et est donc incapable de découvrir de nouveaux mots composés. L’utilisation d’extracteurs automatiques de collocations peut donc s’avérer utile. Par exemple, (Watrin & François, 2011) calculent à la volée pour chaque collocation candidate dans le texte traité, son score d’association au 114De telles expressions acceptent très rarement des insertions, souvent limitées à des modifieurs simples comme dans à court terme et à très court terme. 115Wikipedia :

« Une caisse noire est une réserve d’argent, le plus souvent illicite, servant à financer des actions souvent illicites comme le versement de pots-de-vin, par exemple pour la conclusion d’une vente. » 129 Chapitre 5. Les unités multi-mots dans l’étiquetage morpho-syntaxique et l’analyse syntaxique FIG. 5.1: Grammaire locale d’identification de mots composés (des nombres) présente dans la distribution d’Unitex. moyen d’une base externe de n-grammes apprise sur un grand corpus brut. L’expression est ensuite étiquetée comme MWE si son score d’association est plus grand qu’un seuil donné. Ils obtiennent d’excellents résultats dans le cadre d’une tâche d’extraction de mots-clés.

Dans le cadre d’une évaluation sur corpus de référence, (Ramisch et al., 2010) ont développé un classifieur basé sur un séparateur à vastes marges intégrant des traits correspondant à différentes mesures d’associations des collocations. Les résultats sont plutôt faibles sur le corpus GENIA. (Green et al., 2011) ont confirmé ces mauvais résultats sur le FTB. Ceci s’explique par le fait que de telles méthodes ne font aucune distinction entre les différents types de MWEs, et que les types de MWEs annotés dans les corpus sont souvent limités. L’identification de telles expressions est une tâche très difficile car les unités non décrites dans les ressources sont difficilement reconnaissables. Elle est d’autant plus difficile qu’elle dépend du contexte d’occurrence. En effet, une expression reconnue est souvent ambigue avec l’analyse en combinaison libre, comme par exemple : il en fait une priorité (combinaison libre) j’ai en fait beaucoup travaillé (combinaison figée)