Application au résumé de documents hétérogènes
Réussir à s’approprier un corpus et en tirer les informations essentielles est une tâche impossible à réaliser pour un humain dès lors que les données à traiter sont trop im- portantes. Les « veilleurs » ont besoin d’aides automatiques afin d’explorer au mieux ces données. Dans cet esprit, de nouvelles perspectives de recherche ont vu le jour afin de faciliter l’accès à un contenu noyé dans un flot d’informations trop important. C’est notamment le cas des tâches de détection et de suivi d’événement (en anglais topic detection and tracking – TDT ). La détection et le suivi d’événement consistent à regrouper dans une même classe les documents qui traitent d’un même événement. A titre d’exemple, deux dépêches ayant pour titre « Arrivée en France de Laurent Gbagbo en vue d’une table ronde à Marcoussis » et « Ouverture des négociations entre rebelles et gouvernement ivoirien à Marcoussis » se rapportent à un même événement : « La Table ronde de Marcoussis ». La notion d’événement est cependant une notion vague, qu’il nous appartiendra de préciser dans ce chapitre.et de suivi d’événement a été exprimé dans le cadre du projet collaboratif Infomagic, et la partie de notre travail consistant à regrouper les documents en classes événementielles a été publiée dans « TALN 2008 » (cf C). Après avoir présenté un état de l’art des techniques de détection hors ligne d’événements – e.g. la détection d’événements dans des corpus dont les documents n’arrivent pas en temps réel, éludant le problème de l’incrémentalité –, nous essayons de mieux caractériser la notion d’événement avant de présenter notre système de détection automatique. Nous détaillons ensuite la façon dont les documents sont caractérisés, puis l’algorithme de classification. Enfin, nous présentons l’évaluation de notre système sur un corpus de dépêches AFP en langue française ainsi que des exemples d’utilisation.
La détection d’événements permet de suivre en direct des flux de dépêches et de les classer en fonction du thème traité. Nous nous intéressons ici à la détection d’événements hors ligne. Ce thème a été moins traité que la détection en ligne –e.g. incrémentale– mais il est important, au moins dans deux cas de figure bien identifiés : Nous visons ces deux buts à la fois, l’objectif de notre application étant in fine de produire des synthèses sommaires à partir de masses de documents non structurés car la tâche s’apparente à du résumé multi-documents à partir d’un fonds documentaire non homogène en entrée. La visualisation des données permet en outre à l’analyste de contrôler le processus de regroupement de documents en ensembles pertinents. Nous ne nous intéressons ici qu’à l’étape de regroupement des documents.des mots qui ne sont pas catégorisables comme termes uniques (e.g. le Palais, peut être du Luxembourg, de l’Elysée…), ou ne tenir compte que des noms propres ? Les auteurs arrivent à la conclusion que les jeux de données avec lesquels ils obtiennent les meilleurs résultats sont ceux prenant en compte tous les mots sans exception. Ils attribuent cela au fait que les outils d’extraction de termes ou de noms propres qu’ils utilisent ne sont pas assez robustes pour ce type de tâche.
(Zhiwei Li et Ma, 2005) proposent quant à eux une approche probabiliste pour le re- groupement de documents en utilisant comme représentation d’un document une matrice composée de quatre vecteurs : les noms de personnes, de lieux, les dates et des mots-clés. Leur modèle probabiliste appliqué à un extrait du corpus du programme TDT4 produit des résultats de l’ordre de 85 % de précision et 67 % de rappel, en fixant à la main le nombre de classes dans lesquelles ranger les documents. Sur des jeux de données ne séparant pas les entités nommées des mots-clefs, les résultats sont inférieurs de 10 %. Les auteurs l’expliquent par le fait que lorqu’elles ne sont pas distinguées des mots-clefs, les entités nommées se retrouvent noyées dans les données, alors que ce sont les éléments clés pour la construction d’un modèle d’événement.Toutes les approches présentées ici, particulièrement (Hatzivassiloglou et al., 2000), utilisent pour caractériser un document des vocabulaires assez étendus. La taille des données induite par ce type de caractérisation fait chuter les performances et la vitesse des systèmes de classification. Par ailleurs, il a été montré dans (Zhiwei Li et Ma, 2005) que la prise en compte de tout le vocabulaire est moins pertinente que la focalisation sur les seuls éléments clés, notamment les entités nommées. Celles-ci ont par ailleurs un rôle déterminant puisque les fondre dans la masse de données fait chuter les performances.