Définition d’un verbe prédicatif
Valence
La notion de valence apparaît pour la première fois dans une étude de Tesnière (1959)5 et est empruntée à la chimie. La valence caracterise le nombre d’arguments qu’un predicat verbal doit ́ ́ avoir pour que la phrase dont il est le centre soit grammaticalement correcte. Le predicat verbal « ́ pleuvoir », par exemple, a pour valence 0, c’est-a-dire qu’il ne fait intervenir aucun argument : ̀ il pleut. En revanche, le prédicat verbal manger accepte 1 argument : manger une souris.
Dans le cadre de la prédiction du contexte droit, cette information nous permet déjà de mettre de côté l’ensemble des verbes qui ont une valence 0 comme le prédicat verbal pleuvoir.
Construction
Lorsque l’on parle de la construction d’un verbe, il s’agit de déterminer s’il est de construction transitive ou intransitive. On appelle communément construction transitive une construction possédant au moins un argument et construction intransitive une construction ne possédant aucun argument. Concernant la construction transitive, il convient de distinguer la construction transitive directe avec la présence d’un argument en objet direct de la construction transitive indirecte possédant un argument introduit par une préposition.
Cadre de sous-catégorisation (CSC)
Un cadre ou schéma de sous-catégorisation (Messiant & al. 2008) correspond à la représentation syntaxique (catégorie et fonction) des arguments. Cela permet de savoir si l’argument d’un prédicat verbal en OD se réalise sous la forme d’un SN ou d’une infinitive par exemple. Le CSC est par conséquent plus précis en terme d’informations sur le contexte droit que le type de construction d’un verbe.
Structure argumentale
À chaque argument du prédicat verbal est attribue un role thematique ou semantique auquel ́ ̂ ́ ́ correspond une projection syntaxique (voir aussi Hale & Kayser 1986a, 1986b ; Jackendoff 1983, 1987, 1990 ; Rappaport & Levin 1986 ; Grimshaw 1990). La réunion des informations sémantiques et syntaxiques des arguments (celles du CSC) correspond à la structure argumentale d’un prédicat verbal. Les rôles thématiques ont été introduits par Levin (1993) puis repris par (Palmer & al. 2005) ce qui a donné lieu à deux ressources : PropBank (Palmer & al. 2005) et VerbNet (Kipper-Schuler. 2005). Le but de Levin est de classifier le lexique verbal anglais sous forme de classes et de sousclasses de verbes. Pour cela, elle part de l’hypothèse que le comportement syntaxique d’un verbe dépend de sa signification. Pour mieux représenter la signification d’un prédicat, elle a élaboré des rôles thématiques tels que pour le prédicat manger nous avons qqn (agent) manger qqch (patient). Voici une description des rôles thématiques élaborés par Levin (1993) :
Ressource existantes
Nous présentons les ressources existantes en français pour les verbes prédicatifs. Ces ressources contiennent pour la plupart des informations sur le cadre de sous-categorisation accompagnées ́ d’une caractérisation sémantique générale des arguments (+hum, -hum).
▪ Les verbes prédicatifs du Lexique-Grammaire (Gross 1975; Leclère 2002)
Les tables du LADL sont un lexique-grammaire etabli par Maurice Gross et regroupant 6000 ́ verbes repartis dans des tables construites d’apres des similitudes de comportements des verbes qui ́ ̀ les composent. Chaque table du lexique-grammaire contient un certain nombre de proprietes : ́ ́
– les realisations possibles des arguments ; ́
– les proprietes syntaxiques du verbe ou de ses arguments ; ́ ́
– les sous-categorisations alternatives ; ́
– les arguments ont certaines proprietes que Maurice Gross qualifie de « traits syntaxiques », ́ ́ (ce qui correspondrait plutôt à des traits sémantiques). Pour les arguments nominaux, le lexique definit si ce sont des arguments a trait humain ou non par exemple. ́ ̀
Ceci rejoint en partie la theorie de Beth Levin (Levin 93), selon laquelle les verbes partageant les ́ memes traits syntaxiques et certains traits semantiques.
LexValf (Salkoff & Valli 2005)
La base de données LEXique des VALences verbales du Français (LexValf) réunit les verbes les plus fréquents de la langue française. Actuellement, cette base de données comporte 975 entrées ; à terme, la taille visée est de 6000 verbes.
Une entrée verbale contient une description syntaxique des arguments du prédicat verbal, elle est reliée à l’entrée correspondante dans la version xmlisée du LVF (2004), les relations de sélection lexicales entre le verbe et ses arguments et entre les arguments du verbes sont mises en évidence au moyen d’une annotation en traits sémantiques généraux (humain, non humain, concret, abstrait).
Les sources utilisées pour la constitution de cette ressource sont :
– des dictionnaires : Grand Robert (GR), Petit Robert (PR), et le Trésor de la Langue Française (TLF).
– La version XML du LVF de Dubois & Dubois : inventaire des construction possible pour une entrée verbale
– le Web : extraction de contextualisations, extraction de nouveau patrons de constructions syntaxiques.
TreeLex (Kupść & Abeillé 2008)
Le lexique TreeLex est un lexique français obtenu automatiquement et comporte des informations sur les cadres de sous-categorisation de verbes et d’adjectifs prédicatifs extraits à partir ́ du corpus annoté syntaxiquement le French TreeBank. Le lexique TreeLex se présente donc sous la forme de deux ressources distinctes, l’une pour les verbes l’autre pour les adjectifs. La ressource concernant les verbes contient 2000 verbes accompagnés d’une description de leur cadre de souscategorisation (nommé valence frames). Il y a 180 cadres de sous-categorisation différents et une ́ ́ moyenne de 2,09 cadres de sous-categorisation par verbe. Concernant la ressource pour les ́ adjectifs, elle comporte 2153 adjectifs qualificatifs et 16 410 occurrences. 41 cadres de souscategorisation sont présents dans la ressource. La plupart de ces adjectifs apparaissent avec un cadre ́ de sous-categorisation simple (NP sujet) (1849 adjectifs). Seulement 304 adjectifs ont un cadre de ́ sous-categorisation ”complexe” (nommés les adjectifs ”intéressants”) ́
Les informations concernant les arguments (pour les verbes et les adjectifs) sont de deux types : catégorie syntaxique et fonction syntaxique.
Évaluation des ressources
Nous venons de présenter les ressources existantes en français pouvant être exploitables pour la prédiction du contexte droit des verbes prédicatifs. Il s’agit à présenter d’évaluer leur efficacité. Notre démarche consiste à sélectionner les informations pertinentes pour notre objet d’étude dans chacune de ces ressources pour le verbe commencer. Le choix de ces verbes s’est fait selon leur alternance de construction (transitif direct/indirect, intransitif). Ces informations sont utilisées sous forme de graphes de reconnaissance UNITEX qui seront par la suite appliquées sur un corpus test. Concernant le Lexique-Grammaire, nous préférons exploiter les informations contenues dans LGLex (nous rappelons que cette ressource est une adaptation du Lexique-Grammaire sous forme XML) car les informations y sont plus clairement structurées.
Protocole
Constitution du corpus de test
L’évaluation des ressources présentées précédemment porte sur la prédiction du contexte droit du verbe commencer. Le choix de ce verbe s’explique par son alternance syntaxique. Ce verbe peut être employé dans un emploi absolu (ex : Max commence), dans une construction transitive directe autrement dit avec un objet direct (ex : Max commence ses devoirs) ou dans une construction intransitive autrement dit avec un objet indirect (ex : Max commence à parler). Le fait que nous ayons déjà constitué un corpus d’occurrences de ce verbe pour l’évaluation de la méthode ngrammes dans la première partie justifie également notre choix. Notre corpus est par conséquent constitué de 92 phrases contenant des occurrences de formes fléchies du verbe commencer dont 12 phrases agrammaticales et inacceptables du point de vue du sens.
Préparation des données
La seconde étape de notre protocole consiste en l’adaptation des données contenues dans les ressources présentées précédemment sous forme de graphes de reconnaissance Unitex. Il n’existe pas de programme libre de prédiction du contexte droit. Dans le temps qui nous était imparti, le développement d’un tel programme était impossible. C’est pourquoi, nous avons utilisé l’outil linguistique Unitex6 afin de simuler une prédiction du contexte droit. Unitex est un logiciel libre permettant le traitement de corpus pour construire ou gérer des ressources linguistiques. Le traitement des corpus se fait à l’aide de grammaires et de dictionnaires que l’on applique sur les textes.
Pour chaque ressource vue dans la section précédente, nous avons extrait les informations linguistiques pertinentes à la prédiction du contexte droit du verbe commencer. Par exemple, nous avons extrait les informations suivantes de Lefff :