Analyse syntaxique profonde
Cette dernière partie présente quelques unes de nos expérimentations concernant l’analyse syntaxique profonde de textes en exploitant les propriétés syntaxiques des éléments prédicatifs du français encodées dans les tables du lexique-grammaire. A cet effet, nous avons développé une grammaire lexicalisé du français dans un formalisme à unification original (RTN décorés), qui est générée de manière semi-automatique à partir des tables du lexique- grammaire. Nous présentons, dans un premier temps, la méthodologie du lexique-gram- maire, en précisant en quoi les tables du lexique-grammaire sont une ressource précieuse pour le traitement automatique des langues. Nous présentons en- suite le formalisme grammatical des RTN décorés et nous le situons par rap- port à d’autres formalismes utilisés couramment pour l’analyse syntaxique. Puis, nous présentons notre grammaire du français dans son état actuel et nous terminons en donnant quelques résultats préliminaires des évaluations de sa couverture lexicale et syntaxique.
Lexique-grammaire
Le lexique grammaire est une méthodologie pour l’étude empirique de la syntaxe des langues naturelles créée par Maurice Gross dont l’ouvrage fon- dateur est Méthode en syntaxe [Gross, 1975]. Cette méthodologie a pour cadre théorique la grammaire transformationnelle Harissienne [Harris, 1951, Harris, 1968] qui consiste en une approche mathématique de la linguistique, reposant sur des définitions rigoureuses et minimales. Dans ce cadre, le sujet d’étude est la phrase simple qui est considérée comme l’unité minimale de sens. Une phrase simple est composée d’un prédicat et de ses actants ou arguments, c’est-à-dire son sujet et ses compléments essentiels (par opposition aux compléments dits non-essentiels ou circonstanciels).
Le prédicat est le noyau de la phrase, il s’agit le plus souvent d’un verbe plein. Ses arguments se distinguent par leur position dans la phrase (sujet, complément d’objet direct, complément prépositionnel, etc.) et par leur nature (groupe nominal humain, concret, phrase complétive, infinitive, etc.) :Certaines expressions dites figées peuvent également jouer le rôle de prédi- cat d’une phrase. Elles ne présentent en surface pas de différences avec les constructions dites libres, mais certains de leurs éléments sont contraints et n’admettent pas ou peu de variations lexicales :
Maurice Gross a mis en avant l’importance du lexique par rapport à la grammaire. En effet, comme même Chomsky l’observait [Chomsky, 1965],les transformations syntaxiques, même les plus générales, sont sujettes à de fortes contraintes au niveau lexical. Ainsi, une description complète de la syntaxe d’une langue naturelle ne consiste pas en un ensemble de règles syntaxiques générales mais nécessite également, et de manière aussi importante, une description détaillée pour chaque élément du lexique des formes et des transformations syntaxiques qu’il accepte ou n’accepte pas.
Ainsi, Maurice Gross a entrepris, avec son équipe au LADL, une description des propriétés syntaxiques des éléments prédicatifs du français : verbes, noms, adjectifs, adverbes et phrases figées. Pour chaque prédicat, ont été étudiées de manière sytématique ses propriétés de sous-catégorisation (le nombre et la na-ture de ses arguments) ainsi que ses propriétés transformationnelles. Toutesces descriptions ont été encodées dans des dictionnaires syntaxiques sous laforme de tables, dites tables du lexique grammaire. Chaque table regroupeun ensemble de prédicats en fonction de propriétés définitionnelles, corres-pondant souvent à la structure de la phrase canonique.
La figure 4.1, par exemple, contient un extrait de la table 9 qui regroupe l’ensemble des verbes qui rentrent dans la construction N0 V que P à N1 (= : Luc dit qu’il vabien à Lea). Chaque ligne de la table correspond à un prédicat ; chaque colonne correspond à une propriété. Une valeur booléenne (indiquée par un+ ou −) à chaque intersection d’une ligne et d’une colonne indique si telle entrée accepte ou non telle propriété. Les chercheurs du lexique-grammaire ont ainsi codé 12 000 emplois de verbes [Gross, 1975, Boons et al., 1976b,Boons et al., 1976a, Guillet et Leclère, 1992], 10 000 emplois de noms prédi-catifs [Giry-Schneider, 1978][Labelle, 1974][Meunier, 1981][Vivès, 1983] [de Negroni-Peyre, 1978] [Gross, 1989]. Les tables des adjectifs sont en cours de construction et il existe également des tables de phrases figées (M. Gross, 1984) comprenant une ving-taine de milliers d’entrées.
L’analyse syntaxique ne constitue pas une fin en soi, mais est souvent une étape nécessaire pour le développement d’applications de plus haut niveau en traitement des langues, tels que l’analyse sémantique, les systèmes de réponses à des questions, la génération de résumés de texte ou la traduction automatique. Toutes ces applications pourraient bénéficier d’un module d’analyse syntaxique exploitant les descriptions linguistiques fines et à large
Formalisme Grammatical
Une structure de traits est constituée d’un ensemble de traits sous la forme de couples attribut-valeur. La valeur d’un trait peut être de deux formes. Il s’agit soit d’une valeur atomique (dans ce cas elle prend la forme d’un symbole ou plus généralement d’une disjonction de symboles atomiques), soit d’une structure de traits enchâssée. Traditionnellement, on représente une structure de traits par des matrices entre crochets. La figure 4.2 présente deux exemples de structures de traits. La première est une structure de traits simple dans le sens où chaque trait à une valeur atomique. Le trait cat par exemple a pour valeur le symbole det et la valeur de l’attribut genre est constituée de la disjonction des deux symboles atomiques masc et fem. La matrice à droite, quant à elle, représente une structure de traits complexe puisque la valeur du trait accord est elle-même une structure de traits en chassée.