Ressources lexicales et syntaxiques
Un lexique syntaxique est une ressource qui contient l’information sur le potentiel combina toire d’un prédicat, mais aussi sur le type de ses arguments. Par exemple, le verbe dormir régit un seul argument, le sujet, et ce dernier peut être un groupe nominal. De plus, ces diffé rentes informations varient selon la langue. Il est donc nécessaire de développer au moins un lexique pour chaque langue devant être traitée par les applications du TAL.
Ces lexiques sont traditionnellement développés par des experts humains (le Lexique-Grammaire (Gross, 1975), par exemple), ce qui en fait des ressources de bonne qualité et à large couverture, mais qui sont, en général, difficilement adaptables aux traitements automatiques.
Il existe actuellement de plus en plus de lexiques développés de manière automatique, ou semi-automatique, par des algorithmes statistiques appliqués sur des textes ou des corpus annotés (Carroll & Fang, 2004; Bourigault & Frérot, 2006; Kupsc, 2007).
Dans le cadre d’applications comme l’analyse syntaxique, il a été prouvé par diverses expé riences que les informations lexicales et syntaxiques contenues dans les lexiques pouvaient potentiellement améliorer la qualité des analyses produites. (Briscoe & Carroll, 1993) ont par exemple estimé qu’environ 50% des erreurs des analyseurs reposent sur des informations in suffisantes concernant la structure argumentale.
Quant à (Carroll & Fang, 2004), ils ont montré qu’un analyseur HPSG pouvait être significativement amélioré grâce à des informations de sous-catégorisation présentes dans un lexique de verbes acquis automatiquement. Plus récem ment, (Tolone, 2011a) a intégré avec succès les données d’un lexique du français, le Lexique Grammaire, dans un analyseur symbolique FRMG (Thomasset & de La Clergerie, 2005).
On peut noter que les lexiques jouent un rôle essentiel dans d’autres domaines comme l’extraction d’information (Surdeanu et al., 2003), la traduction automatique (hye Han et al., 2000), ou en core la génération automatique de textes (Danlos, 1985).
Dans ce chapitre, nous présentons les différents lexiques syntaxiques du français que nous utilisons pour nos expériences, à savoir Dicovalence (section 4.2), le Lefff (section 4.3), le Lexique-Grammaire (section 4.4) et LexSchem (section 4.5). Pour chacun de ces lexiques, nous décrivons le principe général, l’architecture ainsi que les différentes informations codées pour 1
Dicovalence
Le dictionnaire Dicovalence101 est un lexique syntaxique qui répertorie les cadres de valence des verbes simples du français (Mertens, 2010). Ce lexique fait suite au développement du dictionnaire Proton (Eynde & Piet, 2003). Il contient 5011 formes verbales lemmatisées pour 8254 entrées. Un même lemme peut présenter plusieurs emplois d’où plusieurs entrées dis tinctes avec leur propre cadre valenciel.
Par exemple, on peut distinguer deux emplois distincts pour le verbe écumer : (1) les bières anglaises n’écument pas. (2) le garçon écumait les bières. Pour chaque entrée, le lexique indique le cadre valenciel (cadre de sous-catégorisation) qui énu mère l’ensemble des compléments valenciels (arguments) d’un verbe dans un emploi donné.
Pour chaque argument, il est précisé le caractère obligatoire ou facultatif, la fonction syntaxique associée, les réalisations syntagmatiques possibles ainsi que des traits sémantiques (humain, abstrait,…). Dicovalence se base sur un ensemble de quinze fonctions syntaxiques, parmi les quelles : subj, sujet (Max dans Max mange une pomme). obj, objet direct (une pomme dans Max mange une pomme).
objà, objet indirect introduit canoniquement par la préposition à (à Sophie dans Max donne une pomme à Sophie). objde, objet indirect introduit par la préposition de (de son courage dans je me suis émer veillé de son courage). objp, objet indirect (avec son partenaire dans il a composé avec son partenaire).
loc, argument locatif (dans leur maison dans les nouveaux voisins ont emménagé dans leur maison). deloc, argument délocatif introduit par la préposition de (de son bureau dans ils ont enlevé la photo de son bureau). attr_obj, attribut de l’objet (comme chauffeur dans je peux vous employer comme chauffeur).
attr_subj, attribut du sujet (comme agent de police dans je me suis engagé comme agent de police). quant, complément de quantification (pour cinq euros dans je vous laisse ce livre pour cinq euros). Les fonctions syntaxiques contenant le symbole sont introduites par une préposition rem plaçant x dans les entrées concernées.
Les réalisations syntagmatiques possibles d’une fonction syntaxique sont de trois types : clitique : y, en, celui-ci,… syntagme direct : pronominal pron, nominal n, proposition infinitive inf, proposition com plétive compl, proposition interrogative qcompl. 101Disponible à l’adresse http://bach.arts.kuleuven.be/dicovalence