Analyse syntaxique et algorithmes de regroupements lexicaux

Analyse syntaxique et algorithmes de regroupements lexicaux

Nous avons évoqué, dans le chapitre I.2.3, les deux problèmes principaux liés au formalisme PCFG. Le faible conditionnement lexical des règles d’une grammaire PCFG a été en partie ré- solu par les modèles lexicalisés proposés par (Charniak, 1997; Collins & Singer, 1999; Collins, 2003). Ces modèles annotent les noeuds non-terminaux par leur tête lexicale, ce qui entraîne une propagation des informations lexicales dans la totalité de l’arbre. Quant aux hypothèses d’indépendance trop fortes entre les règles de la grammaire, elles sont attenuées par l’intro- duction de symboles latents à travers l’utilisation de grammaires PCFG-LA (Matsuzaki et al., 2005; Petrov et al., 2006; Petrov & Klein, 2007; Petrov, 2010). Malgré le fait que les gram- maires PCFG-LA soient dites non lexicalisées, certaines expériences, sur le français notam- ment (Crabbé & Candito, 2008), ont prouvé que le lexique joue un rôle important dans ces grammaires. Ils ont entraîné et évalué l’analyseur BKY sur une autre version du FTB134 dont les formes fléchies ont été remplacées par leur étiquette morpho-syntaxique correcte. Ce cor- pus dont les mots sont maintenant des étiquettes conduit à créer une grammaire PCFG-LA totalement non lexicalisée obtenant un score F1 de 86.28 sur le corpus d’évaluation. Ces per- formances ont ensuite été comparées avec une grammaire apprise sur un corpus dont les mots ont été remplacés par la combinaison correcte de l’étiquette morpho-syntaxique suivie du mot.

Cette grammaire obtient un score F1 de 87.79 ce qui correspond à un gain de +1.51. Ce résultat prouve qu’à travers les divisions des symboles préterminaux (étiquettes morpho-syntaxiques), les informations lexicales sont propagées dans l’arbre lors de la division des symboles des ni- veaux supérieurs.La dispersion lexicale des données est un des problèmes liés aux PCFG, et causé par le degré de complexité plus ou moins important de la flexion d’une langue. Par exemple, nous avons vu, dans le chapitre I.1, que le corpus du français FTB-UC possède une flexion plus impor- tante que le PTB pour l’anglais (en moyenne 1.5 formes par lemme pour le FTB-UC contre seulement 1.3 pour le PTB). L’impact de cette flexion sur les performances d’analyseurs du français a été évalué dans (Candito & Crabbé, 2009), où les mots du corpus ont été rempla- cés par la combinaison correcte de l’étiquette et du lemme. BKY obtient un score F1 de 88.18 sur le corpus d’évaluation, ce qui correspond à un gain de +0.39 par rapport à l’expérience précédente. Ainsi, ce résultat positif obtenu par une flexion moindre confirme l’impact négatif de la dispersion lexicale sur la grammaire PCFG-LA de BKY. Et cela montre également que le regroupement lexical est une technique efficace qui permet d’atténuer significativement ce problème.En ce qui concerne l’analyse en dépendances, nous avons pu voir que la plupart des meilleurs analyseurs actuels sont basés sur un modèle discriminant. L’impact de la dispersion des don- nées sur ces modèles est moindre que pour les modèles génératifs. Aussi, l’utilisation de re- groupements lexicaux n’est pas aussi cruciale pour ce type d’analyse. Malgré tout, plusieurs expériences récentes (Koo et al., 2008; Suzuki et al., 2009) ont montré que des regroupements pertinents, intégrés sous la forme de traits au modèle, pouvaient participer à l’amélioration gé- nérale des performances.

Dans les sections qui suivent, nous décrivons, en premier lieu, les principaux types de regroupe- ments lexicaux de la littérature, permettant de résoudre au mieux le problème de la dispersion lexicale des données, et ceci dans le cadre des PCFG (section I.6.2). Puis, nous ferons de même pour les regroupements qui améliorent les performances générales des analyseurs en dépen- dances (section I.6.3). Après avoir réalisé ce tour d’horizon, nous proposons et évaluons, dans la section 6.4, nos propres méthodes de regroupements de mots basées sur des données issues de lexiques syntaxiques.Dans la plupart des travaux liés aux PCFG, l’approche par regroupement lexical consiste à rem- placer les mots des corpus et des textes par des symboles plus généraux (Agirre et al., 2008; Candito & Crabbé, 2009; Candito & Seddah, 2010). Ces symboles sont des classes lexicales précalculées par des algorithmes semi-supervisés ou à partir de ressources syntaxiques et sé- mantiques. Une grammaire PCFG est ensuite apprise sur le nouveau corpus d’apprentissage, puis, cette grammaire est utilisée pour analyser les phrases brutes du nouveau corpus d’évalua- tion. La dernière étape consiste à réintroduire les tokens originaux dans les analyses produites afin d’obtenir la sortie finale de l’algorithme. (Agirre et al., 2008) proposent de remplacer chaque mot par une classe sémantique, déterminée à partir d’un thésaurus. Quant à (Candito & Crabbé, 2009; Candito & Seddah, 2010), ils proposent trois types de regroupements lexicaux, où chaque mot est remplacé par :– la combinaison de son étiquette et de son lemme,– une forme fléchie dont certaines marques morphologiques sont supprimées,– une classe lexicale obtenue par un algorithme de classification hiérarchique semi-supervisé.

 

Cours gratuitTélécharger le document complet

Télécharger aussi :

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *