Production d’annotations morphologiques et syntaxiques prédites

EPs : Définition

La notion d’EPs (expressions polylexicales) 3 est connue pour être difficile à cerner, comme l’est d’une manière plus générale la notion de mot (Baldwin et Kim, 2010). Elle est pourtant cruciale en linguistique et en TAL (Traitement Automatique des Langues), car particulièrement fréquente à l’échelle du lexique : Jackendoff (1997) estime que le nombre d’EPs dans le lexique d’un locuteur est comparable au nombre de mots simples et l’étude Fellbaum (1999) montre que 41 % des entrées deWordNet 1.7 sont des multimots. Les données de la compétition internationale PARSEME 1.0, sur l’identification des EPs verbales, ont un ratio d’une EP verbale annotée tous les 75 tokens environ. Une définition purement statistique de la notion d’EP est celle de Carpuat et Diab (2010), qui considèrent comme EPs les séquences qui coexistent statistiquement plus que le hasard. Une définition distributionnelle, approximative, est celle d’une séquence de “mots” qui se comporte comme une seule unité à un certain niveau de l’analyse linguistique (Calzolari et al., 2002).

Comme certaines EPs (les continues) sont parfois considérées comme des mots, on peut reformuler la définition en « une séquence d’éléments qui se comportent chacun comme un mot dans d’autres contextes, mais qui lorsqu’utilisés ensemble peuvent former une unité lexicale ». Il est cependant peu satisfaisant que cette reformulation de type « mot avec espaces » s’appuie sur les conventions typographiques. D’une part elle s’applique mal aux langues sans séparateurs de mots, comme la plupart des langues asiatiques. D’autre part certains éléments classiquement considérés comme EPs contiennent des symboles spéciaux mais pas d’espaces, au moins dans certaines variantes. C’est le cas par exemple des variantes c’est à dire ou c’est-à-dire. De plus, certains éléments séparés par des espaces ne sont pas des mots, car jamais présents en dehors de l’EP (comme par exemple fur dans au fur et à mesure).

Enfin, le terme EP peut également être utilisé pour une séquence discontinue de mots, qui ne peut pas du coup être considérée comme ayant le même statut qu’un seul mot. Sag et al. (2002) se basent, quant à eux, sur le caractère imprévisible du comportement morphologique, syntaxique et sémantique des EPs, qu’ils définissent comme des interprétations idiosyncrasiques qui transcendent les frontières de mot, mettant ainsi l’accent sur l’aspect idiosyncrasique de la sémantique des EPs. Dans leur article de référence, Baldwin et Kim (2010) tentent de réunir tous ces aspects en définissant l’EP comme un élément lexical qui : (a) peut être décomposé en plusieurs lexèmes ; et (b) affiche une idiosyncrasie lexicale, syntaxique, sémantique, pragmatique et/ou statistique. Nous suivons les pas de Constant et al. (2017) en adoptant cette définition, qui offre un cadre flexible pour aborder l’identification de ces entités, en capturant tous les aspects mentionnés par les définitions précédentes, et en insistant sur les différents niveaux linguistiques sur lesquels les EPs peuvent avoir un impact. Nous terminons cette section de définition par les liens des EPs avec deux concepts liés, les collocations et les termes.

EPs versus collocations

La notion de collocation est liée à celle d’EP, les collocations étant, selon les auteurs, distinctes ou bien incluses au sein des EPs. Ainsi par exemple Evert (2005) définit une collocation comme une combinaison de mots dont les propriétés sémantiques et/ou syntaxiques ne peuvent pas être entièrement prédites à partir de celles de ses composants, et qui doivent donc être répertoriées dans un lexique, ce qui du coup se lit comme un synonyme d’EP. Dans un sens plus étroit, elles sont comprises comme des paires de mots semi-compositionnels, avec un élément « libre » (la base) et un autre élément déterminé par la base (le colocataire). Mais généralement les collocations sont définies sur une base au moins en partie statistique et sont placées quelque part dans la zone grise entre les idiomes fixes et les combinaisons libres. Ainsi Baldwin et Kim (2010) les définissent comme des « EPs statistiquement idiomatiques » (statistically idiomatic MWE en anglais), c’est-à-dire pour lesquelles la ou une des idiosyncrasies est d’avoir une fréquence en corpus plus importante qu’attendu. Dans toute la suite, nous suivrons la terminologie du projet PARSEME4, étant donné que nous utilisons les jeux de données issues des compétitions internationales PARSEME 1.0 et PARSEME 1.1 pour la majeure partie de nos expérimentations (données dont la typologie est décrite infra, section 1.3.1, et qui sont plus détaillées sections 2.3.1 et 2.3.2). Le guide d’annotation PARSEME 1.1 5 oppose clairement les EPs aux collocations, ces dernières étant comprises comme des « combinaisons de mots dont l’idiosyncrasie est purement statistique. En d’autres termes, les tokens dans les collocations ont tendance à coïncider plus souvent que prévu par hasard, mais ils ne montrent aucune idiosyncrasie substantielle sur le plan orthographique, morphologique, syntaxique et (plus particulièrement) sémantique. »

Typologies et catégories d’EPs Il existe plusieurs manières de catégoriser les EPs. Sag et al. (2002) réunit la plupart des catégories d’EPs en une seule typologie arborescente, que nous reproduisons dans la figure 1.1. Cette classification se focalise sur les caractéristiques statistiques, syntaxiques et sémantiques des EPs. La distinction première sépare les EPs institutionnalisées et les EPs lexicalisées. Les EPs institutionnalisées ne sont idiosyncrasiques que sur le plan statistique (i.e. cela rejoint le terme de « collocation » au sens du guide PARSEME cité supra, section 1.1.1). À noter que cette dichotomie est clairement schématique, puisque les EPs lexicalisées ont également en général une idiosyncrasie statistique. Les EPs lexicalisées, quant à elles, présentent une idiosyncrasie lexicale, syntaxique, sémantique ou/et pragmatique. Elles sont distinguées selon leur flexibilité syntaxique, en EPs fixes, EPs semi-fixes et et EPs syntaxiquement flexibles. Les expressions fixes sont complètement lexicalisées et n’admettent ni variation morphosyntaxique ni modification interne, ou contiennent des composants n’apparaissant pas indépendamment de l’expression (Sag et al., 2002). Par exemple, ad hoc et de facto sont des EPs issues du latin, dont les composants n’appartiennent même pas au dictionnaire.

Les expressions semi-fixes admettent quant à elles certaines variations, comme la flexion de certains composants, la sélection de déterminants, mais n’admettent pas de variation dans l’ordre de leurs composants. Par exemple, l’expression Prendre la porte est une EP régulière sur le plan syntaxique et sémantique, le verbe se fléchit de manière régulière, en revanche l’expression perd son sens idiomatique si son complément, la porte, est au pluriel. Un autre angle d’approche consiste à classer les EPs d’après leur catégorie morphosyntaxique, elle-même déterminée d’après la distribution de l’EP. Tout en reprenant la typologie à la Sag et al. (2002), Baldwin et Kim (2010) font une description des propriétés typiques des EPs pour trois classes morphosyntaxiques principales : les EPs nominales, verbales et prépositionnelles. Le guide d’annotation du FTB Abeillé et Clément (2003) fournit également des exemples typiques pour les différentes catégories morphosyntaxiques d’EPs. À noter cependant qu’il s’agit de caractéristiques typiques mais non définitoires. L’approche du projet PARSEME est en cela différente : les différentes catégories d’EPs verbales y sont définies de manière opératoire, et l’approche est validée pour les 20 langues couvertes par le projet. Nous résumons infra d’abord la typologie précise des EPs verbales du projet PARSEME, puis donnons des exemples d’EPs pour les différentes autres catégories morphosyntaxiques.

Schémas IOB et IOB-iob

Les schémas dits IOB (« Inside Outside Begin ») ou IOB-iob sont couramment utilisés par les méthodes d’étiquetage de séquences pour de multiples tâches de TAL comme la segmentation syntaxique (chunking) et la reconnaissance des entités nommées. Le schéma IOB a été proposé par Ramshaw et Marcus (1999) avec l’objectif de représenter les groupes nominaux non récursifs. Il s’agit d’un schéma d’étiquetage séquentiel, associant une unique étiquette à chaque token de la phrase. Alors que I indique si le token est à l’intérieur du groupe nominal, O indique que le token est à l’extérieur de celui-ci et B marque l’élément le plus à gauche du groupe. Les méthodes d’identification des EPs à base d’étiquetage de séquences s’inspirent de ce schéma pour représenter les phrases des corpus d’apprentissage. Le token peut être soit le premier token d’une EP (il est alors étiqueté B), soit un token complémentaire de l’EP (I), soit à l’extérieur de l’EP (O). Ce schéma permet de représenter des EPs continues et discontinues, mais n’est pas capable de représenter les cas d’enchâssement, de chevauchement, ni même d’imbrication (un cas particulier d’enchâssement, où l’EP enchâssante a des composantes à gauche et à droite de l’EP enchâssée). Pour augmenter le pouvoir expressif de ce schéma, Schneider et al. (2014a) proposent une modification afin de l’adapter à l’imbrication. Le schéma IOB-iob est composé de six étiquettes : B; I;O; b; i et o.

Les étiquettes majuscules sont similaires à celles du schéma IOB standard. Les étiquettes en minuscules ont des significations similaires, mais pour les EPs imbriquées : b est utilisé pour le premier composant de l’EP imbriquée, i pour ses composants suivants et o pour les éventuels tokens qui n’appartiennent pas à l’EP imbriquée (ni enchâssante) et se produisent dans l’une de ses discontinuités (comme cet homme dans la figure 2.5). Ce schéma ne permet de représenter l’imbrication qu’à un seul niveau. Comme son ascendant, ce schéma n’est pas capable de représenter les scénarios d’enchâssement ou de chevauchement. Il existe d’autres variantes du schéma IOB permettant de s’adapter à divers cadres expérimentaux. Klyueva et al. (2017) donne à ce schéma la capacité de catégoriser les EPs en remplaçant la étiquette B par la catégorie linguistique de l’EP. Diab et Bhutada (2009) se base sur ce schéma pour distinguer les occurrences littérales des occurrences idiomatiques des CVSs en proposant cinq différentes étiquettes : BL (début d’une occurrence littérale), IL (à l’intérieur d’une occurrence littérale), BI (début d’une occurrence idiomatique), II (à l’intérieur d’une occurrence idiomatique), O (à l’extérieur d’une occurrence d’EP). À noter que le jeu de données DiMSUM utilise le schéma IOB-iob.

Table des matières

Introduction
Introduction
1 Contexte
2 Objectifs et méthodologie .
3 Plan de la thèse
I Identification des EPs : un état de l’art
Expressions polylexicales (EPs)
1.1 EPs : Définition
1.1.1 EPs versus collocations
1.1.2 EPs versus termes
1.2 Propriétés linguistiques et formelles des EPs
1.2.1 Idiosyncrasie
1.2.2 Ambiguïté
1.2.3 Variabilité
1.2.4 Propriétés formelles : discontinuité, enchâssement et chevauchement
1.3 Typologies et catégories d’EPs
1.3.1 Les EPs verbales dans les données PARSEME
1.4 Critères d’identification d’EPs
1.4.1 Les critères d’EPs dans le FTB
1.4.2 Les critères d’EPs dans le projet PARSEME-FR
1.5 Résumé
2.1 Définition de la tâche
2.1.1 Identification d’occurrences vs extraction de types d’EPs
2.2 Motivations
2.3 Jeux de données
2.3.1 Jeux de données de PARSEME 1.0
2.3.2 Jeux de données de PARSEME 1.1
2.3.3 French treebank (FTB)
2.3.4 Detecting Minimal Semantic Units and their Meanings (DiMSUM)
2.4 Annotations : schémas et formats
2.4.1 Schémas IOB et IOB-iob
2.4.2 Schéma PARSEME
2.5 Défis
2.5.1 Ambiguïté
2.5.2 Discontinuité
2.5.3 Enchâssement et chevauchement
2.5.4 Variabilité
2.6 Mesures d’évaluation
2.6.1 Évaluation au niveau des EPs (eval-eps)
2.6.2 Évaluation au niveau des composants (eval-cmpts)
2.6.3 Évaluation de la catégorisation
2.6.4 Discussion
2.7 Méthodes d’identification à base de règles
2.7.1 Projection de lexique d’EPs
2.7.2 Transducteurs finis
2.8 Identification par classification binaire de candidats
2.8.1 Méthodes supervisées pour la classification de candidats préannotés
2.8.2 Méthodes non supervisées pour la classification de candidats préannotés
2.8.3 Méthodes supervisées pour la classification des candidats automatiques
2.9 Résumé
3.1 Identification des EPs intégrée à d’autres tâches de TAL
3.1.1 Super-étiquetage
3.1.2 Étiquetage morphosyntaxique
3.1.3 Analyse syntaxique en constituants
3.1.4 Analyse syntaxique en dépendances
3.1.5 Étiquetage morphosyntaxique et analyse en dépendances
3.2 Méthodes de type étiquetage de séquences
3.2.1 Méthodes par apprentissage « classique »
3.2.2 Méthodes à base de réseaux de neurones
3.3 TRAVERSAL : Système atypique d’étiquetage global au sein d’un arbre syntaxique . 3.4 Résumé
4.1 Systèmes par transitions
4.1.1 Formalisation d’un arbre de dépendances
4.1.2 Systèmes par transitions pour l’analyse en dépendances
4.2 Systèmes par transitions pour l’analyse syntaxique et l’identification d’EPs
4.3 Réseaux de neurones pour les systèmes par transitions
4.3.1 Réseaux de neurones à propagation avant
4.3.2 Réseaux de neurones récurrents
4.4 Architectures neuronales multitâches .
4.4.1 Transfert de paramètres
4.4.2 Apprentissage multitâche
4.4.3 Apprentissage multitâche pour l’analyse en dépendances et l’étiquetage morphosyntaxique .
4.5 Résumé
II Méthode d’analyse automatique par transitions pour l’identification des EPs
Description du système
1.1 Définition du système
1.2 Ensembles de transitions
1.2.1 Ensemble de transitions T2
1.2.2 Ensemble de transitions T0
1.2.3 Ensemble de transitions T1
1.2.4 Catégorisation : ensembles de transitions Tc .
1.3 Puissance expressive
1.4 Oracle O
1.5 Données d’entraînement et algorithme d’analyse
1.5.1 Longueur de la séquence des transitions .
1.6 Résumé
Modèle linéaire
2.1 Machine à vecteurs de support (SVM)
2.2 Patrons de traits
2.2.1 Patrons lexicaux et morphosyntaxiques
2.2.2 Patrons Syntaxiques
2.2.3 Lexiques des données d’entraînement
2.2.4 Historique des transitions prédites
2.2.5 Distance entre les éléments
2.2.6 Longueur de la pile
2.3 Réglage des hyperparamètres
2.3.1 Méthode de réglage
2.3.2 Résultats : ensembles de patrons de traits retenus
2.4 Expérimentations et résultats
2.4.1 Métriques d’évaluation
2.4.2 Système de base (baseline)
2.4.3 Production d’annotations morphologiques et syntaxiques prédites
2.4.4 Résultats d’identification
2.4.5 Catégorisation
2.5 Analyse : SVM1 et système de base
2.6 Analyse : Impact de patrons de traits
2.7 Résumé
3.1 Plongements
3.1.1 Hyperparamètres
3.2 Perceptron multicouche (MLP)
3.2.1 Hyperparamètres
3.3 Ré-échantillonnage
3.3.1 Hyperparamètres
3.4 Réglage des hyperparamètres
3.4.1 Méthode de réglage des hyperparamètres
3.4.2 Résultats du réglage des hyperparamètres
3.4.3 Impact des graines sur les variations de performance
3.5 Expérimentation et résultats
3.5.1 Métriques d’évaluation et test de significativité
3.5.2 Résultats d’identification sans plongements préentraînés (MLPc)
3.5.3 Résultats d’identification avec plongements lexicaux préentrainés
3.5.4 FTB et DiMSUM
3.6 Analyse et discussion
3.6.1 Impact du ré-échantillonnage
3.6.2 Impact de la taille du corpus d’apprentissage
3.6.3 Impact de la proportion d’EPs vues à l’apprentissage
3.6.4 Impact de la catégorie des EPs
3.6.5 Impact du type de vocabulaire utilisé
3.7 Empilement des modèles
3.7.1 Expérimentation et résultats d’identification
3.8 Résumé
Réseaux de neurones contextuels pour l’identification des EPs
4.1 MLP-Wide
4.2 Variantes récurrentes du réseau de neurones MLP
4.2.1 Couches récurrentes LSTM et GRU
4.2.2 Variante 1 : MLP-R-Sent
4.2.3 Variante 2 : MLP-R-Stack
4.2.4 Variante 3 : MLP-R-Stack2
4.3 MLP avec représentation récurrente des éléments ciblés (KG-2016)
4.4 Réglage des hyperparamètres
4.5 Expérimentations et résultats
4.6 Analyse de la performance par classes d’EPs
4.7 Analyse d’erreurs
4.8 Résumé
Apprentissage multitâche pour l’identification d’EPs
5.1 Architecture et composants
5.1.1 Module partagé de représentation contextualisée
5.1.2 Module d’étiquetage morphosyntaxique
5.1.3 Module d’identification des EPs
5.1.4 Module d’analyse syntaxique en dépendances par transitions
5.1.5 Systèmes multitâches
5.2 Algorithmes d’optimisation
5.3 Cadre expérimental
5.3.1 Réglage des hyperparamètres
5.3.2 Sélection des combinaisons d’hyperparamètres
5.3.3 Langues d’évaluation
5.3.4 Systèmes de base
5.4 Résultats et analyses
5.5 Résumé
Applications et détails techniques
6.1 Utilisation de notre variante SVM pour une étude en neurosciences
6.2 Reprise de la méthode
6.3 Détails techniques de la mise en œuvre
Conclusion
Conclusion
Bibliographie