Grammaires locales étendues approches pour l’extraction del’information
Dans ce chapitre nous étudions quelques approches pour l’extraction d’information à l’aide des grammaires locales étendues. Nous abordons plusieurs problématiques : la désambiguïsation des catégories grammaticales à l’aide de méthodes fondées sur l’apprentissage automatique, l’analyse sémantique prédicat–argument à l’aide d’un moteur d’inférence logique, la recherche adaptative de motifs dans un dictionnaire électronique et la reconnaissance des entités nommées bruités. Pour chacun des sujets, nous allons d’abord contextualiser la problématique et ensuite étudier comment utiliser le formalisme des grammaires locales étendues pour apporter des alternatives de traitement.
Désambiguïsation des catégories grammaticales
Rappelons qu’une grammaire est ambiguë (cf. définition 2.13) s’il existe plus d’un arbre de dérivation (cf. définition 2.12) pour une phrase du langage. Dans le même sens, l’automate qui modélise une grammaire locale est ambigu lorsque deux chemins réussis ont la même étiquette d’entrée., réaliser une telle opération n’est pas possible. En effet, à l’inverse des langages artificiels, les langages naturels sont très expressifs et bien connus pour avoir beaucoup d’ambiguïtés et il n’est pas alors toujours possible de les supprimer. Comme alternative, plusieurs approches peuvent être prises en compte. Nous considérons brièvement celles fondées sur la construction d’un automate du texte pour lever l’ambiguïté grammaticale, pour ensuite nous consacrer à certaines techniques qui peuvent être mise en place pour traiter l’ambiguïté (deux chemins réussis qui ont la même étiquette d’entrée) dans la conception d’une grammaire locale. Finalement, nous proposons une approche fondée sur la construction d’une grammaire locale étendue pour réduire l’ambiguïté des catégories grammaticales.
Analyse sémantique prédicat–argument
Considérons le graphe d’exemple 7.3 tiré de Silberztein (2003, p. 197), ce graphe est utilisé pour reconnaître des séquences hN0i hVi hN1i et produire en sortie une analyse sémantique exprimée dans un formalisme du type prédicat–argument telle que celui utilisé par Prolog (Clocksin et Mellish, 2003), un langage de programmation logique.Cette phrase décrit une action « see » impliquant deux personnes : John et Mary. Tandis que l’action est définie autour d’un noyau verbal hVi, appelé prédicat, les deux noms, hN0i et hN1i, définissent les participants de l’action et sont dénommés ces arguments. La représentation de cette relation prédicat–argument en Prolog est donnée par l’expression see(John,Mary). Le graphe 7.3 est capable de produire des expressions de type prédicat–argument. En particulier, il est en mesure de reconnaître une phrase en entrée, telle que (48), et de produire une analyse sémantique en sortie, telle que (49) :
Notons que, quant à la capacité transformationnelle, l’analyse produite est puissante,en particulier, l’expression de sortie peut être adaptée facilement pour exprimer d’autres formalismes (Silberztein). Cependant, cette analyse est retreinte à produire une sortie passive, autrement dit, la grammaire locale est nullement capable de comprendre les expressions du formalisme qui est en train de produire, ainsi (49) n’a aucun effet ni sur(48) ni sur les autres phrases qui pourrait être reconnues. Ceci restreint énormément la capacité d’analyse sémantique. En effet, pour cet exemple, la seule stratégie pour créer une base de connaissances à partir des prédicats générés afin de faire des requêtes déductibles des faits est d’attendre la fin de l’analyse effectuée par la grammaire et ensuite d’utiliser les sorties résultantes comme entrée d’un interpréteur logique comme Prolog.
Naturellement, la question qu’on se pose est de savoir si en utilisant le formalisme des grammaires locales étendues il est possible de 1. Produire en sortie des expressions du type prédicat–argument, 2. Utiliser ces expressions pour ajouter, à la volé, des faits dans une base de connaissances et 3. Faire des requêtes à la base au cours des analyses. Nous appelons cette démarche une analyse sémantique active, ceci en opposition à l’analyse sémantique des grammaires locales classiques, comme celle du graphe 7.3, limitée à produire en sortie des expressions logiques.Nous présenterons à la fin de ce chapitre une structure de données et des algorithmes qui permettent de chercher efficacement p en W avec une métrique δ et un seuil de distance k, ainsi que connaître combien de mots de W coïncident avec p et quelle est la position de ces occurrences. Nous verrons aussi comment l’approche proposée ne se limite pas à une seule métrique d’édition, mais peut aussi s’adapter à la nature du problème et des données.