Apport d’une grammaire de segment pour la détection de sujets à longue
Notre recherche sur la segmentation discursive était initiée par le constat des difficultés posées par la variation de surface à la détection des relations sémantiques entre verbes et EN. Le formalisme de patrons lexico-syntaxiques rendait complexe la construction de patron, car il supposait d’intégrer de nombreuses alternatives pour chaque relation. À présent que nous avons défini une grammaire de segments qui structure l’arbre en élaguant les éléments optionnels, nous pouvons reprendre ce problème. Pour illustrer son apport, nous proposons de nous intéresser à la relation sujet, lorsque la catégorie est une EN mais aussi dans les cas où il s’agit d’autres catégories. L’objectif est d’évaluer le nombre de relations sujet obtenu avant et après l’application des règles inter-segment. Notre hypothèse est que ces règles permettent de détecter des relations à longue distance : nous devrions donc en obtenir plus. Nous y parviendrons en comparant deux représentations du texte à une même grammaire syntaxique, ce qui nous permettra de mesurer cet apport pour chaque catégorie sujet. Après avoir observé quelques statistiques pertinentes vis-à-vis des relations sujet, la méthode utilisée pour définir la grammaire syntaxique sera présentée. L’évaluation portera sur les différences de performance de cette grammaire à l’extraction des sujets du verbe annoncer selon la représentation. La grammaire de segment a permis de réduire de 40% le nombre de segments total, pour une moyenne de 40 segments par articles (il était de 70-80). Si on compare la distribution du nombre de segments en fonction de la taille avant et après l’application de la grammaire de segments, on constate que la proportion du nombre de segments de taille 1 et 2 a fortement diminué (figure 9.1).
Cela s’explique principalement par le fait que le contenu des segments courts a été associé et que ces segments ont été supprimés. Si l’on s’intéresse à présent au contenu de ces segments, on peut comparer les segments contenant au moins une EN et les segments contenant au moins un verbe avant et après l’application de la grammaire de segmentation (figure 9.2). Les EN s’opposent aux verbes sur les segments de taille 1 : la probabilité de trouver une action dans un tel segment est très faible comparée à celle d’y trouver une EN. Les règles de segments ont donc plus d’impact sur la catégorie des EN, réduisant la part de segments de taille 1 de moitié (plus grand écart observé). Après segmentation, le nombre de segments est constamment plus faible pour ces deux catégories jusqu’à la taille 4, à partir de laquelle la part de segments devient plus importante. Les diagrammes suivants précisent ces données pour les sous classes d’EN, Personne, Organisation et Lieu avant et après segmentation (Figure 9.3).Le nombre de segments de taille 1 est réduit de moitié pour ce qui concerne les Personnes, de 60% pour les Lieux (plus grand écart observé) et de 45% pour les Organisations. Nous nous rapprochons donc de notre objectif : les EN sont à présent plus régulièrement associées à des segments de plus grande taille, ou contenues dans des nœuds dont ils dépendent (comme les parenthétiques par exemple). On peut supposer que les nouveaux segments auxquels les EN appartiennent contiennent des verbes avec lesquels elles sont en relation. Afin de préciser cette hypothèse, nous pouvons nous intéresser à la différence de distribution des positions des entités-R au sein des segments.
Nous savons que les verbes sont faiblement présents dans des segments simples (cf. infra figure 9.2). On peut donc supposer que les éléments qui les accompagnent sont des arguments syntaxiques potentiels. Cette supposition nécessite de connaître la position des éléments vis-à-vis du verbe dans un segment. Or, dans la représentation initiale des segments (avant l’application de règles inter- segment), les verbes ont la particularité de se situer majoritairement en début de segment. Comme on peut le constater sur la figure (9.4), 70% des occurrences de verbes se situent en première ou en seconde position, cette dernière étant la plus probable. À l’inverse, les pronoms et les personnes sont fortement initiateurs de segments (0,7 et 0,6 respectivement). Ces probabilités dépendent bien entendu de la taille du segment : il n’y aurait aucun intérêt à parler de position pour un segment simple (de taille 1). Comme vu précédemment (cf. infra p201), les EN figurent fréquemment dans des segments simples, notamment les personnes (0,26), alors que les pronoms sont faiblement représentés (0,7).