EPs : Définition
La notion d’EPs (expressions polylexicales) 3 est connue pour être difficile à cerner, comme l’est d’une manière plus générale la notion de mot (Baldwin et Kim, 2010). Elle est pourtant cruciale en linguistique et en TAL (Traitement Automatique des Langues), car particulièrement fréquente à l’échelle du lexique : Jackendoff (1997) estime que le nombre d’EPs dans le lexique d’un locuteur est comparable au nombre de mots simples et l’étude Fellbaum (1999) montre que 41 % des entrées deWordNet 1.7 sont des multimots. Les données de la compétition internationale PARSEME 1.0, sur l’identification des EPs verbales, ont un ratio d’une EP verbale annotée tous les 75 tokens environ. Une définition purement statistique de la notion d’EP est celle de Carpuat et Diab (2010), qui considèrent comme EPs les séquences qui coexistent statistiquement plus que le hasard. Une définition distributionnelle, approximative, est celle d’une séquence de “mots” qui se comporte comme une seule unité à un certain niveau de l’analyse linguistique (Calzolari et al., 2002).
Comme certaines EPs (les continues) sont parfois considérées comme des mots, on peut reformuler la définition en « une séquence d’éléments qui se comportent chacun comme un mot dans d’autres contextes, mais qui lorsqu’utilisés ensemble peuvent former une unité lexicale ». Il est cependant peu satisfaisant que cette reformulation de type « mot avec espaces » s’appuie sur les conventions typographiques. D’une part elle s’applique mal aux langues sans séparateurs de mots, comme la plupart des langues asiatiques. D’autre part certains éléments classiquement considérés comme EPs contiennent des symboles spéciaux mais pas d’espaces, au moins dans certaines variantes. C’est le cas par exemple des variantes c’est à dire ou c’est-à-dire. De plus, certains éléments séparés par des espaces ne sont pas des mots, car jamais présents en dehors de l’EP (comme par exemple fur dans au fur et à mesure).
Enfin, le terme EP peut également être utilisé pour une séquence discontinue de mots, qui ne peut pas du coup être considérée comme ayant le même statut qu’un seul mot. Sag et al. (2002) se basent, quant à eux, sur le caractère imprévisible du comportement morphologique, syntaxique et sémantique des EPs, qu’ils définissent comme des interprétations idiosyncrasiques qui transcendent les frontières de mot, mettant ainsi l’accent sur l’aspect idiosyncrasique de la sémantique des EPs. Dans leur article de référence, Baldwin et Kim (2010) tentent de réunir tous ces aspects en définissant l’EP comme un élément lexical qui : (a) peut être décomposé en plusieurs lexèmes ; et (b) affiche une idiosyncrasie lexicale, syntaxique, sémantique, pragmatique et/ou statistique. Nous suivons les pas de Constant et al. (2017) en adoptant cette définition, qui offre un cadre flexible pour aborder l’identification de ces entités, en capturant tous les aspects mentionnés par les définitions précédentes, et en insistant sur les différents niveaux linguistiques sur lesquels les EPs peuvent avoir un impact. Nous terminons cette section de définition par les liens des EPs avec deux concepts liés, les collocations et les termes.
EPs versus collocations
La notion de collocation est liée à celle d’EP, les collocations étant, selon les auteurs, distinctes ou bien incluses au sein des EPs. Ainsi par exemple Evert (2005) définit une collocation comme une combinaison de mots dont les propriétés sémantiques et/ou syntaxiques ne peuvent pas être entièrement prédites à partir de celles de ses composants, et qui doivent donc être répertoriées dans un lexique, ce qui du coup se lit comme un synonyme d’EP. Dans un sens plus étroit, elles sont comprises comme des paires de mots semi-compositionnels, avec un élément « libre » (la base) et un autre élément déterminé par la base (le colocataire). Mais généralement les collocations sont définies sur une base au moins en partie statistique et sont placées quelque part dans la zone grise entre les idiomes fixes et les combinaisons libres. Ainsi Baldwin et Kim (2010) les définissent comme des « EPs statistiquement idiomatiques » (statistically idiomatic MWE en anglais), c’est-à-dire pour lesquelles la ou une des idiosyncrasies est d’avoir une fréquence en corpus plus importante qu’attendu. Dans toute la suite, nous suivrons la terminologie du projet PARSEME4, étant donné que nous utilisons les jeux de données issues des compétitions internationales PARSEME 1.0 et PARSEME 1.1 pour la majeure partie de nos expérimentations (données dont la typologie est décrite infra, section 1.3.1, et qui sont plus détaillées sections 2.3.1 et 2.3.2). Le guide d’annotation PARSEME 1.1 5 oppose clairement les EPs aux collocations, ces dernières étant comprises comme des « combinaisons de mots dont l’idiosyncrasie est purement statistique. En d’autres termes, les tokens dans les collocations ont tendance à coïncider plus souvent que prévu par hasard, mais ils ne montrent aucune idiosyncrasie substantielle sur le plan orthographique, morphologique, syntaxique et (plus particulièrement) sémantique. »
Typologies et catégories d’EPs Il existe plusieurs manières de catégoriser les EPs. Sag et al. (2002) réunit la plupart des catégories d’EPs en une seule typologie arborescente, que nous reproduisons dans la figure 1.1. Cette classification se focalise sur les caractéristiques statistiques, syntaxiques et sémantiques des EPs. La distinction première sépare les EPs institutionnalisées et les EPs lexicalisées. Les EPs institutionnalisées ne sont idiosyncrasiques que sur le plan statistique (i.e. cela rejoint le terme de « collocation » au sens du guide PARSEME cité supra, section 1.1.1). À noter que cette dichotomie est clairement schématique, puisque les EPs lexicalisées ont également en général une idiosyncrasie statistique. Les EPs lexicalisées, quant à elles, présentent une idiosyncrasie lexicale, syntaxique, sémantique ou/et pragmatique. Elles sont distinguées selon leur flexibilité syntaxique, en EPs fixes, EPs semi-fixes et et EPs syntaxiquement flexibles. Les expressions fixes sont complètement lexicalisées et n’admettent ni variation morphosyntaxique ni modification interne, ou contiennent des composants n’apparaissant pas indépendamment de l’expression (Sag et al., 2002). Par exemple, ad hoc et de facto sont des EPs issues du latin, dont les composants n’appartiennent même pas au dictionnaire.
Les expressions semi-fixes admettent quant à elles certaines variations, comme la flexion de certains composants, la sélection de déterminants, mais n’admettent pas de variation dans l’ordre de leurs composants. Par exemple, l’expression Prendre la porte est une EP régulière sur le plan syntaxique et sémantique, le verbe se fléchit de manière régulière, en revanche l’expression perd son sens idiomatique si son complément, la porte, est au pluriel. Un autre angle d’approche consiste à classer les EPs d’après leur catégorie morphosyntaxique, elle-même déterminée d’après la distribution de l’EP. Tout en reprenant la typologie à la Sag et al. (2002), Baldwin et Kim (2010) font une description des propriétés typiques des EPs pour trois classes morphosyntaxiques principales : les EPs nominales, verbales et prépositionnelles. Le guide d’annotation du FTB Abeillé et Clément (2003) fournit également des exemples typiques pour les différentes catégories morphosyntaxiques d’EPs. À noter cependant qu’il s’agit de caractéristiques typiques mais non définitoires. L’approche du projet PARSEME est en cela différente : les différentes catégories d’EPs verbales y sont définies de manière opératoire, et l’approche est validée pour les 20 langues couvertes par le projet. Nous résumons infra d’abord la typologie précise des EPs verbales du projet PARSEME, puis donnons des exemples d’EPs pour les différentes autres catégories morphosyntaxiques.
Schémas IOB et IOB-iob
Les schémas dits IOB (« Inside Outside Begin ») ou IOB-iob sont couramment utilisés par les méthodes d’étiquetage de séquences pour de multiples tâches de TAL comme la segmentation syntaxique (chunking) et la reconnaissance des entités nommées. Le schéma IOB a été proposé par Ramshaw et Marcus (1999) avec l’objectif de représenter les groupes nominaux non récursifs. Il s’agit d’un schéma d’étiquetage séquentiel, associant une unique étiquette à chaque token de la phrase. Alors que I indique si le token est à l’intérieur du groupe nominal, O indique que le token est à l’extérieur de celui-ci et B marque l’élément le plus à gauche du groupe. Les méthodes d’identification des EPs à base d’étiquetage de séquences s’inspirent de ce schéma pour représenter les phrases des corpus d’apprentissage. Le token peut être soit le premier token d’une EP (il est alors étiqueté B), soit un token complémentaire de l’EP (I), soit à l’extérieur de l’EP (O). Ce schéma permet de représenter des EPs continues et discontinues, mais n’est pas capable de représenter les cas d’enchâssement, de chevauchement, ni même d’imbrication (un cas particulier d’enchâssement, où l’EP enchâssante a des composantes à gauche et à droite de l’EP enchâssée). Pour augmenter le pouvoir expressif de ce schéma, Schneider et al. (2014a) proposent une modification afin de l’adapter à l’imbrication. Le schéma IOB-iob est composé de six étiquettes : B; I;O; b; i et o.
Les étiquettes majuscules sont similaires à celles du schéma IOB standard. Les étiquettes en minuscules ont des significations similaires, mais pour les EPs imbriquées : b est utilisé pour le premier composant de l’EP imbriquée, i pour ses composants suivants et o pour les éventuels tokens qui n’appartiennent pas à l’EP imbriquée (ni enchâssante) et se produisent dans l’une de ses discontinuités (comme cet homme dans la figure 2.5). Ce schéma ne permet de représenter l’imbrication qu’à un seul niveau. Comme son ascendant, ce schéma n’est pas capable de représenter les scénarios d’enchâssement ou de chevauchement. Il existe d’autres variantes du schéma IOB permettant de s’adapter à divers cadres expérimentaux. Klyueva et al. (2017) donne à ce schéma la capacité de catégoriser les EPs en remplaçant la étiquette B par la catégorie linguistique de l’EP. Diab et Bhutada (2009) se base sur ce schéma pour distinguer les occurrences littérales des occurrences idiomatiques des CVSs en proposant cinq différentes étiquettes : BL (début d’une occurrence littérale), IL (à l’intérieur d’une occurrence littérale), BI (début d’une occurrence idiomatique), II (à l’intérieur d’une occurrence idiomatique), O (à l’extérieur d’une occurrence d’EP). À noter que le jeu de données DiMSUM utilise le schéma IOB-iob.
Introduction |