Le contenu Relations inter-segment
Principes de la grammaire de segment Comme nous l’avons noté, le nombre de segments simples (de taille 1) constitue plus de 30% de la totalité des segments du corpus de développement. Nous reproduisons en figure (8.1) plus en détail la nature des entités-R apparaissant dans ce contexte.
FIG 8.1 – Probabilité d’occurrence d’une entité-R dans un segment simple Personne Lieu Organisation On observe qu’environ 21% des occurrences d’EN (Organisation, Personne, Lieu) détectées par le système Rnc se retrouvent dans des segments simples (catégorie EN), c’est-à-dire qu’une frontière se situe à leur gauche et à leur droite.
À titre comparatif, les entités-R se retrouvant fréquemment dans cette configuration sont des syntagmes temporels (0,33), des locutions adverbiales et des mots inconnus (0,18), ainsi que des entités-R de fonction (0,21). Nous avons également fait figurer la répartition des EN selon la catégorie et on observe que l’on trouvera avec plus de certitude une personne (0,26) qu’une organisation (0,14) dans un segment simple.
L’intérêt du point de vue des EN est d’identifier les relations qui les lient aux éléments de segments adjacents. Pour illustrer le principe de rattachement des segments, et du fonctionnement général de la grammaire de segments, prenons un exemple (213). (213) Le sommet des Amériques, réuni à Monterrey (Mexique), les 12 et 13 janvier, « gouvernance démocratique » et sur les incidences de la corruption . se penche sur la
D’une part, on remarque que cette phrase contenant 7 segments est composée de trois EN, deux de type Lieu (Monterrey, Mexique) et une de type événement (sommet des Amériques) et que chacune figure dans un segment différent. D’autre part, on observe que le sujet est séparé de son verbe par 3 segments. La figure (8.2) montre les arcs de dépendance entre segments.
Distances et dépendances entre segments À partir de l’analyse des arcs de dépendance, on peut identifier l’ordre dans lequel doivent s’effectuer des règles inter-segment portant sur des segments adjacents. Par exemple, le segment 4 ne pourra être associé au segment 2 qu’après que le segment 3 ait été associé au segment 2.
L’exemple (214) traduit la suite des opérations possible pour parvenir à détecter le sujet. (214) 1= ( Mexique ) 2= , réuni à Monterrey (Mexique) 3= , réuni à Monterrey (Mexique) , les 12 et 13 janvier , 4= Le sommet des Amériques , réuni à Monterrey (Mexique) , les 12 et 13 janvier , 5= Le sommet des Amériques , réuni à Monterrey (Mexique) , les 12 et 13 janvier , se penche sur la Mexique précise sémantiquement la localisation de la ville Monterrey (qui n’est par ailleurs pas reconnue comme lieu) :
on cherche donc à la rattacher, non pas au segment précédent, mais à cet élément précis. Cette opération nécessite de déplacer tous les éléments du second segment (la parenthétique) ainsi que ses frontières sous la dépendance de Monterrey. Le résultat attendu est illustré figure (8.4). 202 8. Relations inter-segment FIG 8.4 – Arbre pour l’exemple (214) après association de segments Cette représentation permet de traduire correctement la dépendance entre l’élément contenu dans la parenthèse et l’élément du segment qui le précède.
Les opérations qu’une telle association suppose sont : 1. la suppression du nœud du segment 3 2. la création d’un nouveau nœud 3. le positionnement de ce nœud sous l’élément-cible (chunk ou entité-R) du segment 2 4. l’inclusion des parenthèses et des éléments du segment 3 supprimé dans ce nouveau nœud 5. la catégorisation de ce nœud en fonction de l’élément principal qu’il contient (ici le lieu) Cette dernière opération doit permettre d’extraire facilement la relation entre Monterrey et Mexique.
L’application de cette règle permet d’alléger l’arbre et de rapprocher d’autres segments. On peut donc analyser les relations du segment 2 « augmenté » avec le segment 4 les 12 et 13 janvier. Dans ce cas, les mêmes opérations ne peuvent être répliquées, car l’apposition temporelle est en relation avec l’ensemble du segment 2 dont la tête est le participe réuni. Il s’agit d’un problème de positionnement du nouveau nœud. La représentation attendue est illustrée dans la figure (8.5).