Le problème de l’accès à l’information
Le problème de l’accès à l’information n’est pas neuf. Il a déjà été abordé dans le domaine des sciences documentaires, pour des collections de documents-papier dans un premier temps, pour des ensembles de ressources électroniques ensuite. Avec l’avènement du réseau Internet et du Web1 , c’est un nouveau type de collection documentaire qui est apparu. Son importance en ce qui concerne le nombre de documents et d’utilisateurs ainsi que l’accès largement public, au contraire de certaines archives présentes dans les entreprises et autres grandes organisations, ont alors entraîné une concentration importante des innovations dans ce secteur. Si le web reste un cas particulier de collection de documents, les technologies développées pour y accéder sont néanmoins souvent applicables d’une manière générale à tout ensemble documentaire numérique. Actuellement, l’accès aux collections électroniques de documents est souvent réalisé à l’aide de mots clés. Ce système, s’il rencontre un certain succès, que ce soit sur le Web ou dans le cadre d’autres fonds documentaires, est loin d’être idéal. Le problème de l’ambiguïté lexicale et celui représenté par les multiples possibilités d’expression d’une information sont des obstacles importants au bon fonctionnement des systèmes de recherche. En fait, ces derniers maîtrisent difficilement tout ce qui fait la diversité et la richesse d’une langue naturelle. Une méthode de recherche performante se doit de prendre ces aspects en compte, voire même de les dépasser. Afin de maximiser la couverture et la précision d’une recherche par rapport à une collection de documents, il peut être profitable de passer d’un espace de mots à un espace de concepts. L’accès aux documents devrait donc idéalement se dérouler sur une base sémantique et non lexicale. Si cet objectif est assez ambitieux et encore en grande partie hors de portée des technologies actuelles, il n’en demeure pas moins intéressant de se demander comment, dans un premier temps, apporter des éléments de sens à la représentation et à l’indexation des documents. Ce qui rend cette tâche difficile, c’est le caractère souvent hétérogène des collections de documents qui entraîne de nombreuses difficultés lors de l’inventaire, de la manipulation, du jugement de la qualité et de la pertinence, et finalement de l’indexation même des documents. 1 World Wide Web, désigne l’ensemble des documents disponibles sur le réseau Internet, reliés par des liens hypertextes et visualisables à l’aide d’un navigateur. Internet est le réseau informatique par lequel sont accessibles ces documents. L’usage courant confond souvent, de manière erronée, les deux termes. D’abord, les ensembles de documents ne sont pas nécessairement organisés selon un plan précis, que ce soit logiquement ou physiquement. Ensuite, il existe une grande variété de formats de documents (formats de fichiers et organisation du texte dans le document), et leur contenu n’a pas toujours fait l’objet d’une validation. De plus, ces documents sont parfois difficilement accessibles2 . Ces différents obstacles ne se retrouvent pas dans toutes les collections de documents, mais le Web en concentre une bonne partie. Certaines de ces difficultés étaient déjà connues et présentes avant l’expansion numérique, mais cette dernière a généralement eu un effet amplificateur, et les a rendues plus critiques. Concrètement, pour une ressource documentaire telle que le Web, un certain nombre de difficultés peuvent être mises en évidence : – Le nombre de documents à traiter est tel qu’en pratique il est très difficile d’atteindre l’exhaustivité. – La diversité thématique est très élevée, de nombreux domaines étant abordés. – Le degré d’intérêt3 des documents est variable. L’information proposée peut être cruciale ou très importante, ou au contraire complètement anecdotique. – La qualité du contenu peut varier très fortement (la facilité de production et de diffusion permet à tout un chacun de produire des documents, indépendamment de toute contrainte éditoriale). – L’authenticité des documents n’est pas toujours garantie et est parfois difficile à établir (possibilité de faux, difficulté de distinguer ce qui relève de l’opinion ou des faits, etc.). – L’existence de redondances complètes suite à la diffusion par différents canaux, ou partielles suite à l’achat ou à la citation de contenu, opérations durant lesquelles le texte peut éventuellement être modifié. – Les modes de diffusions numériques favorisent la circulation de documents parfois très courts qui ne présentent souvent que des informations partielles (par exemple les flux RSS, le système Twitter, etc.). – L’information est disséminée en de nombreux endroits. – L’existence d’une multitude de formats (encodage des caractères, format du document, structuration de l’information à l’intérieur du document, etc.). – L’information est exprimée au moyen de beaucoup de langues différentes.
Recherche d’informations et extraction d’informations
Grishman [1997] définit l’extraction d’informations (EI) comme étant : « the identication of instances of a particular class of events or relationships in a natural language text, and the extraction of the relevant arguments of the event or relationship. Information extraction therefore involves the creation of a structured representation (such as a data base) of selected information drawn from the text. » Cette définition se situe dans la droite ligne de l’approche adoptée au cours des conférences MUC4 , Message Understanding Conference (Grishman et Sundheim [1996]), qui à partir du début des années 1990, ont contribué à fonder ce courant de recherche. Il peut sembler un peu réducteur de ne mentionner comme objet de l’extraction que les seuls événements et relations, mais ceux-ci peuvent être considérés selon une interprétation large qui se référera à un ensemble beaucoup plus vaste de types d’informations. D’aucuns préféreront cependant une formulation un peu plus générale, comme celle donnée par Moens [2006] : « Information extraction is the identification, and consequent or concurrent classification and structuring into semantic classes, of specific information found in unstructured data sources, such as natural language text, making the information more suitable for information processing tasks. » (p. 4) L’extraction d’informations consiste donc à rechercher des éléments spécifiques, définis par la tâche d’extraction, dans des textes non structurés (en langage naturel) et à les caractériser selon les catégories définies au préalable. Ce processus peut-être vu comme une étape de (pré)traitement destiné à produire un document plus propice au traitement automatique, ou au contraire, si les informations extraites constituent le résultat attendu, comme un aboutissement. En recherche d’informations (RI), l’approche est différente. Baeza-Yates et Ribeiro-Neto [1999] en exposent le principe général : « the primary goal of an IR system is to retrieve all the documents which are relevant to a user query while retrieving as few as non-relevant documents as possible. » (p. 2) Un aspect important réside dans l’ordre de présentation des résultats : « To be effective in its attempt to satisfy the user information need, the IR system must somehow ‘interpret’ the contents of the information items (documents) in a collection and rank them according to a degree of relevance to the user query.» (Baeza-Yates et Ribeiro-Neto [1999], p. 2) L’activité de recherche implique une tâche préalable : l’indexation des documents. Celle-ci peut être effectuée selon diverses méthodes et produire différents types d’index. La recherche d’informations se déroule donc la plupart du temps en deux phases. Tout d’abord, les documents sont analysés afin d’y relier des clés d’indexation ou de les classer dans des catégories. Ensuite, la recherche consiste à comparer les requêtes formulées par les utilisateurs à cet index afin de retrouver les documents pertinents. La distinction faite entre extraction d’informations et recherche d’informations n’est, dans la pratique, pas si tranchée. En effet, l’extraction peut faire appel à des techniques de recherche, et inversement. Par exemple, les systèmes de classification mis au points en RI peuvent être utilisés en amont de l’EI afin de séparer les documents en sous-corpus plus homogènes ou, de manière encore plus fine, pour sélectionner des phrases à analyser de manière plus détaillée (Nédellec et al. [2001]). De même, l’EI peut, entre autres, réduire un document représenté initialement par son contenu entier à un ensemble particulier de mots ou d’expressions et ainsi diriger l’indexation (Riloff et Lehnert [1994], Fairon et Watrin [2003]). Les deux domaines sont donc complémentaires. Dans cette thèse, nous nous intéressons principalement à la recherche d’informations, en tant que moyen d’améliorer l’accès aux documents et, par conséquent, à l’information qu’ils contiennent. L’extraction d’informations sera cependant massivement utilisée pour atteindre cet objectif. Plus particulièrement, l’analyse temporelle présentée à la partie II, relève de l’EI mais est finalement mise au service du système de classification et d’indexation présenté au chapitre 8. Bien entendu, ce système ne représente qu’un exemple possible d’utilisation de l’analyse temporelle parmi bien d’autres. Les développements consentis en la matière sont donc exploitables de diverses manières, que ce soit pour des applications en recherche ou en extraction d’informations.
Les systèmes de recherche d’informations
Avant toute chose, précisons que nous écartons de la recherche d’informations, les systèmes purement encyclopédiques, telles que Universalis5 ou Wikipedia6 . Même si ceux-ci satisfont à un certain nombre de critères que nous attendons d’un système de recherche d’informations performant, c’està-dire, entre autres, un accès à l’information partiellement basé sur le sens (grâce à des classification par catégories ou par thèmes) ou une certaine qualité de l’information7 , ils doivent avant tout être considérés comme un ensemble de documents parmi d’autres. En effet, la couverture thématique et surtout la diversité des documents proposés est forcément limitée. Nous nous intéressons ici, au contraire, aux méthodes rendant possible l’accès à une collection quelconque de documents (textuels) numériques, potentiellement très vaste, dont l’exemple le plus parlant est le Web.