INDEXATION THÉMATICO-TEMPORELLE DE DOCUMENTS TEXTUELS

INDEXATION THÉMATICO-TEMPORELLE DE DOCUMENTS TEXTUELS

Notion de recherche d’informations à dimension temporelle

La recherche d’informations est, comme cela a déjà été exposé (voir l’introduction à l’indexation, la recherche d’informations et les moteurs de recherche, au chapitre 1), l’activité qui permet à un utilisateur de rechercher dans une base documentaire un ensemble de documents pertinents au regard d’une requête qu’il a exprimée. Cette recherche se base sur un ou plusieurs index qui ont été préalablement construits lors de l’insertion du document dans la collection. Sans entrer dans des détails qui dépassent le cadre de cette thèse, on peut constater que les moteurs de recherche sont souvent basés sur les tokens, éventuellement sur les termes composés, contenus dans les textes (voir aussi les sections 1.2 et 1.3). Certains traitements, tels que la racinisation ou l’extension de requêtes, sont parfois entrepris afin d’améliorer la couverture, mais il n’existe que peu d’interventions au niveau du sens du contenu indexé1 , même si cela fait l’objet de nombreuses recherches (voir section 1.3.4). Si l’on attribue le même statut à tous les tokens, de nombreuses informations utiles pour la caractérisation du contenu du document ne sont pas considérées à leur juste valeur. C’est particulièrement le cas pour l’information temporelle. En effet, bon nombre de documents relatent des événements ou des faits qui, s’ils peuvent être reliés à un ou plusieurs thèmes, possèdent également une ou plusieurs dimensions supplémentaires, qui sont souvent de nature temporelle ou spatiale. Cela semble évident si l’on considère spécifiquement des documents d’actualités (articles de journaux, dépêches, etc.). Dès lors, il est pertinent de prendre en compte ces dimensions lors de l’indexation, afin qu’elles puissent être exploitées lors de la recherche de documents. Comme le constatent Alonso et al. [2007], Nunes et al. [2008] ou Vicente-Diez et Martinez [2009], peu de systèmes de recherche d’informations incluant un support réel des aspects temporels ont vu le jour ces dernières années. Dans le cadre de tels systèmes, un utilisateur peut affiner sa requête en ajoutant des critères spécifiques sur la dimension spatiale ou temporelle. Cette possibilité représente une valeur ajoutée réelle pour la recherche d’informations qui, sans traitement spécifique au temps, ne prendra pas nécessairement en compte correctement cette dimension. Une expression telle que « jeudi » ne peut être mise en rapport 1 Les développements relatifs au web sémantique sont une tentative d’aller dans cette direction. Les résultats obtenus jusqu’ici ne correspondent cependant pas toujours aux attentes en la matière.

Indexation thématico-temporelle de documents textuels avec une requête qui porterait sur un jour exprimé au moyen d’une valeur jour/mois/année

De même, comme le suggère Palacio et al. [2010], une recherche sur l’année 1984 ne permet pas de retrouver les documents dans lesquels apparaissent l’expression « les années 1980 ». La situation inverse pose le même type de problème : la requête qui contient des valeurs temporelles sous-spécifiées, imprécises ou d’une granularité élevée peut difficilement être mise en relation avec des expressions précises, bien identifiées ou d’une granularité différente. Enfin, lorsqu’une valeur temporelle est prise en compte, il s’agit souvent de la date de création du document, qui n’est pas nécessairement en rapport avec son contenu (Alonso et al. [2007], Alonso et al. [2009]). 8.1.2 Utilisation concrète dans les systèmes de recherche d’informations actuels Afin d’illustrer en pratique l’absence de support de la dimension temporelle, quelques systèmes de recherche d’informations actuels ont été passés en revue. La consultation du portail de l’Union européenne2 est un bon exemple. Le formulaire de recherche avancée (Figure 8.1) ne propose pas de champ spécifique pour l’entrée d’une valeur temporelle. Le résultat de la requête « tremblement de terre 2009 » propose un certain nombre de textes en rapport avec le séisme de L’Aquila (Italie) en 2009, ce qui est tout à fait correct. Mais la liste reprend également, dans les dix premières propositions, trois documents non pertinents, c’est à dire qui parlent de tremblements de terre d’une part, d’événements relatifs à l’année 2009 d’autre part, mais en aucun cas d’éléments reliés à ces deux critères en même temps. La figure 8.2 illustre le même type de situation, dans le cas d’une base documentaire consacrée aux désastres3 . Pour la requête « earthquake 2009 », le moteur de recherche renvoie un seul résultat dont le thème est bien relatif aux tremblements de terre, mais dont le positionnement temporel concerne l’année 2004. L’erreur d’interprétation provient ici de la prise en compte de la date d’émission du texte et non des valeurs temporelles relatives au contenu du document. Enfin, citons encore le cas de la base documentaire du Sénat belge, déjà évoqué à la section 1.4.2 (Figure 1.10) : son formulaire de recherche propose une interrogation à dimension temporelle, mais limitée aux dates de publication des documents. 8.1.3 Premier bilan Ces quelques exemples, issus de systèmes d’information d’organisations importantes, permettent de mettre le doigt sur certaines lacunes en matière de recherche de documents, et plus spécifiquement en ce qui concerne l’exploitation des données temporelles. En effet, de nombreux moteurs de recherche ne proposent, en guise de support de ces informations temporelles, qu’une recherche par mots-clés 2 http://europa.eu/index_fr.htm, consultation le 26/10/2010 3 Cette base a été créée et est maintenue par le Centre for Research on the Epidemiology of Disasters (http://www. cred.be, consultation le 27/07/2010). 8.1 Introduction 237 Figure 8.1 : Formulaire de recherche avancée du portail de l’Union européenne. Figure 8.2 : Résultat insatisfaisant d’une recherche de document à l’aide d’une requête incluant une dimension temporelle. classique ou une fonction de filtre sur la date d’émission du document4 . Afin de dépasser cette limitation, l’indexation des documents doit évoluer d’une approche strictement 4 Cette fonction apparaît par exemple dans le formulaire de recherche avancée de Google News (http://news. google.com/news/advanced_news_search, consulté le 02/12/2010). 238 8 Indexation thématico-temporelle de documents textuels thématique vers une approche multidimensionnelle. Ainsi, la liste traditionnelle de catégories peut céder sa place à une liste de tuples dont un des composants est une information temporelle. D’autres dimensions peuvent également venir enrichir les éléments de l’index. D’une manière assez intuitive et naturelle, le temps est par exemple assez souvent lié à une valeur spatiale. Chaque tuple peut dans ce cas être représenté par une catégorie accompagnée facultativement par sa dimension spatiotemporelle. Par exemple, l’indexation d’un document par les catégories thématiques [attaque à main armée ; banque] peut être remplacée avantageusement par la liste [(attaque à main armée, 17/03/2005, Bruxelles) ; (banque,_,_)]. 

Formation et coursTélécharger le document complet

Télécharger aussi :

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *