Ressources existantes en français
Les ressources qui existent actuellement pour les noms prédicatifs sont bien moins nombreuses que les ressources recensées précédemment pour les verbes prédicatifs. Pour le français, nous recensons 4 ressources : le Lexique-Grammaire des noms prédicatifs de M. Gross, LGLex, Lefff et le lexique Nomage.
Les ressources LGLex et Lefff ayant été déjà décrites dans la partie 1, nous ne reviendrons pas dessus.
▪ Les noms prédicatifs du Lexique-Grammaire (Leclère 2002)
Nous ne reviendrons pas plus en détail sur cette ressource déjà décrite dans la partie 1 précédente. Cette ressource contient 59 tables de noms prédicatifs (noms avec argument(s) étudiés avec leur verbe support7 ). Les informations qui nous intéressent particulièrement dans la prédiction du contexte droit d’un nom prédicatif sont :
Lexique Nomage (Balvet & al. 2012)
Le lexique NOMAGE est issu d’un projet de recherche ANR jeunes chercheurs de même nom dont l’objectif était d’étudier les noms déverbaux afin de déterminer les propriétés qu’ils héritent de leur base verbale. Les propriétés en question sont la structure argumentale et la classe aspectuelle. Des occurrences de noms déverbaux ont été extraits à partir d’un corpus annoté morphosyntaxiquement (French TreeBank, Abeillé 2003). Une liste de suffixes identifiés comme entrant dans la formation de noms déverbaux ont permis d’extraire automatiquement ces occurrences (-eur, -ment, -ion, -ure, -age, -ance/ence, -éé et -ade). Puis, la liste Verbaction a permis de nettoyer les occurrences des « faux » noms déverbaux (ex : pommade). Une fois le corpus NOMAGE créé, une 7 Un verbe support est un verbe « qui a comme objet (direct ou indirect) un nom prédicatif (Npred) dénotant une éventualité, comme sujet un participant à cette éventualité – en gros, le participant qui est le sujet du verbe morphologiquement associé au Npred s’il existe – et comme objet oblique éventuel l’autre participant s’il y en a un » (Danlos 2009). série de 10 tests a été appliquée sur les noms déverbaux afin de déterminer leur classe aspectuelle
Il existe d’autres ressources sur les noms prédicatifs pour d’autres langues : NomBank et NomLex pour l’anglais, AnCora pour l’espagnol.
Ressources existantes dans d’autres langues
NomLex (Macleod & al. 1998) NomLex8
(NOMinalization LEXicon) est un lexique, un dictionnaire de nominalisations anglaises développé dans le cadre du Proteus Project par l’Université de New York sous la direction de Catherine MacLeod. Le but de ce projet vise à déterminer quels sont les compléments autorisés pour une nominalisation et à mettre en relation les compléments nominaux et les arguments du verbe correspondant, autrement dit, à établir un lien entre les arguments d’une nominalisation et la structure argumentale prédicative du verbe de base. Sur le plan du contenu, le projet inclut, d’une part, la prise en compte des principaux arguments du verbe (sujet, complément direct, complément indirect) ainsi que certains compléments verbaux plus secondaires directement liés aux compléments nominaux et, d’autre part, l’élaboration d’une entrée de nominalisation étendue, incluant des informations relatives aux verbes support que souvent accompagnent les nominalisations (ex. lancer une attaque, faire une promenade).
Le lexique NomLex comprend 1 025 entrées lexicales des nominalisations les plus fréquentes issues de différents corpus (entres autres, Brown Corpus, Wall Street Journal). Dans le cadre du projet NomLex, il est également prévu d’annoter toutes les nominalisations issues d’un autre corpus, le Penn Treebank, afin d’étendre et de valider les entrées de NomLex.
NomBank (Meyers & al. 2004)
NomBank9 est un projet d’annotation sur corpus de l’Université de New York, en lien avec le projet PropBank10 de l’Université de Colorado. L’objectif de NomBank est d’analyser les arguments des noms dans le PropBank Corpus, qui est constitué par le Wall Street Journal Corpus du Penn Treebank, tout comme PropBank vise à y étudier les arguments des verbes. Dans le cadre du processus d’annotation, le projet Nombank produit un certain nombre de ressources, dont divers dictionnaires, permettant d’étiqueter les divers arguments et les adjoints des noms candidats, avec l’attribution de rôles en accord avec les parties du discours. Ce projet a commencé en liaison avec le projet Nomlex de Catherine MacLeod. Dans cette optique, l’objectif de Nombank est de définir et de décrire la structure argumentale des noms de la manière la plus fine et la plus détaillée possible, ce qui implique l’analyse de divers phénomènes tels que les constructions des verbes support, les arguments des copules, les constructions des syntagmes prépositionnels : l’intérêt de cette étude est de constater que l’argument d’un nom peut se trouver en dehors du syntagme nominal dont ce nom est la tête. Ce projet vise ainsi à analyser les nominalisations des verbes mais aussi celles des adjectifs. La version 1.0 de NomBank est sortie le 17 décembre 2007 : elle couvre tous les noms analysables du Wall Street Journal Corpus du Penn Treebank, à savoir, 114 576 propositions et 202 965 occurrences de noms.
AnCora (Taulé & al. , 2008)
Le lexique obtenu dans le cadre du projet AnCora (Taulé & al. , 2008) a été élaboré à partir d’annotations manuelles et semi-automatiques effectuées à différents niveaux. Au niveau sémantique, l’annotation de la structure argumentale verbale a permis l’enrichissement du niveau syntaxique comme l’atteste le tableau ci-dessous récapitulant les fonctions possibles que peut réaliser chaque argument.
Evaluation des ressources
Protocole
Choix d’un nom prédicatif pour la prédiction de son contexte droit
Afin d’évaluer les lexiques Lexique-Grammaire des noms prédicatifs, Lefff et Nomage, nous avons choisi de prédire le contexte droit du nom prédicatif construction. Le choix de ce nom s’explique par le fait qu’il soit fréquemment utilisé dans la presse et qu’il présente une triple construction. En effet, le nom construction peut être employé sans argument (ex : la construction a pris du retard), avec un argument introduit par la préposition de (ex : la construction de la maison a pris du retard) ou deux arguments dont le second est introduit par la préposition par (ex : la construction de la maison par l’entreprise a pris du retard).
Constitution du corpus de test
Nous avons constitué un corpus de 25 phrases contenant des occurrences de formes fléchies du nom construction. Il s’agit de prédire le contexte droit de ces occurrences à l’aide des informations contenues dans les ressources que nous avons présentées précédemment pour les noms prédicatifs. De la même manière que pour la constitution du corpus de test pour les verbes prédicatifs, nous avons extrait 20 phrases de l’Est Républicain (année 2003) illustrant les trois constructions différentes du nom construction. Dans ce corpus, nous avons inséré 5 phrases agrammaticales et inacceptables du point de vue du sens.
Données
Nous avons extrait des ressources existantes sur les noms prédicatifs les informations nécessaires à la prédiction du contexte droit du nom construction. Pour exemple, nous avons extrait de Lefff les informations suivantes : pred= »construction_____1<Objde:(de-sinf|de-sn) Ces informations indiquent que construction possède un argument introduit par la préposition de. Son argument doit se réaliser syntaxiquement sous la forme d’un syntagme nominal ou d’une proposition infinitive.
Nous avons adaptés par la suite ces informations sous la forme de graphes de reconnaissance de la même manière que pour la prédiction du contexte des verbes prédicatifs et nous avons créé un dictionnaire prenant en compte les informations sémantiques (« +Hum », « +Nhum ») de certaines des ressources.
Ces résultats sur l’évaluation des ressources existantes pour la prédiction du contexte droit des verbes prédicatifs apportent deux informations intéressantes :
– l’intégration des connaissances sémantiques dans la prédiction du contexte droit du nom prédicatif construction n’entraîne pas de modification des taux de prédiction du tableau 8. Cela tient au fait que seule la ressource LGLex contient des informations sémantiques sur les arguments du nom construction de type traits sémantiques. Par ailleurs, les traits sémantiques en question étant /+Hum/ (humain) et /+Nhum/ (non humain), ils s’annulent et permettent la prédiction de tout type de noms sans véritable distinction sémantique.
– Ces trois ressources ont le même taux de prédiction que ce soit à partir de connaissances syntaxiques uniquement ou à partir de connaissances syntaxiques et sémantiques. Ce résultat homogène s’explique par une description identique du cadre de sous-categorisation de ́construction dans les trois ressources et par le fait qu’aucune de ces ressources ne se distinguent par l’intégration de connaissances sémantiques. En conclusion, concernant la prédiction du contexte droit des noms prédicatifs, nous ne pouvons pas déterminer tant du point de vue quantitatif et qualitatif quelle ressource permet une meilleure prédiction du fait de l’absence d’une description sémantique des arguments des noms prédicatifs.
![Formation et cours](https://www.clicours.com/img/downloadicon.png)