Patron sémantique en corpus
Patrons sémantiques ontologiques
Annotation référentielle
La méthode la plus élémentaire pour identifier les contraintes sémantiques susceptibles de s’exercer sur les arguments d’un patron donné, consiste à lister les unités lexicales apparaissant dans une position syntaxique donnée et d’y attribuer la catégorie sémantique qui les satisfasse tous. La principale difficulté à laquelle on est confronté en analyse de corpus, particulièrement pour le français, est la quantité non négligeable de phénomènes de pronominalisation. Le tableau (4.1) liste par exemple les formes des arguments du verbe dire (f=731) apparaissant le plus fréquemment en position sujet et objet indirect.
Deux possibilités se présentent alors : • écarter de l’analyse les occurrences pronominalisées, en faisant l’hypothèse que les contraintes que l’on aura identifiées en analysant les unités lexicales « pleines », s’appliqueront également aux pronoms ; • résoudre la référence en annotant chaque pronom par le nom commun correspondant pour effectuer une analyse sémantique exhaustive des données. Pour évaluer l’intérêt des contraintes sémantiques, nous avons préféré la seconde solution.
La résolution référentielle consiste en général à identifier les syntagmes co-référentiels, le plus souvent un nom propre et des pronoms personnels identifiant le(s) même(s) individu(s). Ce qui nous intéresse ici est, non pas la co-référence, mais la catégorie ontologique des référents de ces expressions, comme [[Humain]], [[Animal]], etc. Parmi les unités linguistiques annotées, figurent principalement les pronoms anaphoriques et les noms propres ; nous avons également annoté les impératifs, en ajoutant au verbe la catégorie du sujet implicite, et les possessifs (mon, ton, son, etc.).
Nous nous sommes appuyé sur le texte pour choisir la catégorie à annoter. Il est en effet possible, dans la majeure partie des cas, de retrouver une catégorie du référent dans le texte ; dans ces cas, c’est la catégorie la plus précise (garçon par rapport à homme ; caméléon par rapport à animal) qui était sélectionnée. Lorsqu’aucune information n’était disponible dans le texte, nous nous sommes à la fois appuyé sur notre interprétation et sur des catégories génériques déjà identifiées. L’exemple (119) illustre le résultat obtenu par cette annotation.
Ontologie et généricité
Les types sémantiques correspondent à des catégories ontologiques génériques, c’est-à-dire que les référents sont répartis en genres et espèces ontologiques (en catégories d’êtres ; cf. infra chapitre 1), selon une classification proche des taxonomies employées en sciences naturelles. Si la nature d’une telle ontologie peut être discutée (le terme est aujourd’hui plus élargi et appliqué à de nombreux domaines),
on peut faire l’hypothèse que son usage peut s’avérer fructueux dans le cadre d’une tâche de construction de patron sémantique, comme le défend Hanks [Hanks, 2008] : ces concepts seraient des catégories communes de référence. Sachant qu’elle est aussi employée dans les lexiques syntaxiques (3.3.1.) et informellement dans les dictionnaires, la question est de savoir si ce type de propriété sémantico-référentielle constitue une contrainte avérée du verbe. Nous nous sommes inspiré de l’ontologie de surface de Hanks (cf. infra p70) pour faire correspondre à chaque unité lexicale un type ontologique, en la complétant lorsqu’il y avait lieu. Les types sémantiques les plus fréquents sont présentés dans le tableau (4.5).