Recherche d’information parlée

Recherche d’information parlée

 Recherche documentaire

 La notion de recherche d’information (information retrieval), introduite pour la première fois par Mooers (1950), a tout d’abord été l’apanage de documentalistes ayant besoin d’un classement efficace de leurs ouvrages. Leur but était d’étendre la notion d’index, présente dans les livres, à une bibliothèque entière. Le concept d’index a été inventé, dès 1230, lorsque Hugo de St. Cher employa 500 moines pour créer une concordance de la Bible (Wheatley, 1879). La recherche d’information est donc née de l’exploitation du contenu d’un document pour le retrouver ; cette tâche est connue sous  le nom de recherche documentaire. Par opposition, la classification décimale de Dewey (1876) permet de retrouver des documents grâce à des méta-informations externes à l’ouvrage, selon une annotation réalisée par le documentaliste. La spécificité de la recherche documentaire est de ne réaliser qu’une partie du travail en ne présentant comme résultat non pas l’information en elle-même, mais son interprétation au sein d’un document. Le besoin de l’utilisateur est exprimé sous la forme « J’aimerais tous les documents qui parlent de … ; je les lirai tous afin de me forger une idée exhaustive de ce sujet ». L’utilisateur est assimilé à un documentaliste recherchant non pas une information précise, mais demandant à acquérir des connaissances sur un thème donné. Cette vision du problème de la recherche d’information a l’avantage de ne nécessiter qu’une formalisation précaire des thèmes abordés dans un ouvrage : un index à base de mots devrait suffire. Pour cela, les premiers modèles de recherche d’information ont suivi un schéma simple : transformer le besoin de l’utilisateur en une série de mots-clés, puis générer la liste des documents dont l’index contient ces mots-clés. Cette approche est fonctionnelle lorsque le nombre de documents retrouvés est limité et lorsque les mots-clés choisis ne mènent pas à un trop grand nombre de documents hors-sujet (pour des raisons de polysémie). En effet, ces deux cas augmentent le temps que l’utilisateur passe à explorer les documents sans forcément obtenir une réponse à son besoin. Pour remédier à perte de temps, il faut abandonner la problématique documentaliste et faire une étude plus approfondie du contenu des documents. Tout d’abord, les documents hors-sujet peuvent être écartés en générant non pas un ensemble de documents, mais une liste ordonnée par pertinence estimée en fonction du besoin de l’utilisateur (en comptant par exemple le nombre d’occurrences dans un document des mots-clés utilisés pour retrouver les documents). Les documents au début de cette liste sont censés contenir des informations plus intéressantes pour l’utilisateur et devraient être explorés en premier lieu. Dans un second temps, le contenu de chaque document peut être résumé en fonction du besoin utilisateur pour lui permettre de juger rapidement du potentiel informatif de ce document (en présentant par exemple le contexte d’utilisation des mots-clés déduits du besoin utilisateur). La dernière idée est de s’affranchir du document et de répondre directement au besoin de l’utilisateur, en donnant une réponse exacte à la question qu’il se pose (problématique Questions-Réponses décrite et évaluée par Voorhees, 2003). Cette notion se rapproche beaucoup plus du sens premier de la recherche d’information, mais ce domaine très intéressant demande une analyse approfondie des questions et de leurs réponses potentielles. Toutefois, elle n’est traitée relativement efficacement que pour des questions fermées ou factuelles dont la réponse est une ou plusieurs entités ou quantités (Qui ont été les présidents des ÉtatsUnis ? Combien d’habitants la France compte-elle ? …). Les questions non factuelles du type pourquoi et comment demandent des développements construits, approchés actuellement par le résumé de documents multiples guidé par un besoin utilisateur (voir section 2.2 sur ce sujet). Il faut tout de même noter que toutes les approches pour la recherche d’information sont construites autour d’une base de connaissances (corpus, bibliothèque, base de données) constituant la Vérité et contraignant toute réponse. Bien que le raisonnement par inférence (Raina et al., 2005) puisse donner des réponses à des questions non traitées dans le socle de connaissances exploité, certaines questions métaphysiques n’auront certainement jamais de réponse fondée de la part d’un système informatique (Il paraîtrait qu’un ordinateur ne peut répondre que 42 à la question « Quel est le sens de la vie ? », Adams, 1979). Les problématiques de la recherche d’information sont avant tout de représenter les informations et de déduire celles qui correspondent au besoin de l’utilisateur. Mais il ne faut pas oublier que l’information est conservée sur un support dont elle doit être extraite. De plus, l’expression du besoin de l’utilisateur se fait généralement en langue naturelle. Cependant, ce besoin peut prendre d’autres formes et se retrouver étroitement lié aux résultats de la recherche d’information. Dans ce cas, l’évolution du besoin doit être analysée au travers de son reflet dans les interactions entre l’utilisateur et le système. Ce type d’analyse est primordial pour mieux estimer le besoin de l’utilisateur. Un autre problème lié à la recherche d’information réside dans la quantité de données traitées, car cette dernière impose des contraintes sur l’ensemble des problématiques précédentes (Callan, 2000)

Définition de la tâche

 La tâche la plus répandue en recherche d’information est la recherche documentaire (Document Retrieval). Dans ce cadre, les informations sont matérialisées sous forme de documents dans une ou plusieurs modalités. Un ensemble de documents est appelé corpus et la tâche consiste à extraire d’un corpus l’ensemble des documents correspondant au besoin de l’utilisateur, exprimé sous forme d’une requête. La tâche est définie de façon à rendre possible une répétition des résultats car un système doit se comporter de façon déterministe dans des conditions fixées à l’avance. Historiquement, les documents et les requêtes ont été d’abord textuels, puis différents médias ont été pris en compte (son, image, vidéo). Afin de trouver les documents répondant au besoin de l’utilisateur, la plupart des approches font une analyse du contenu des documents et de la requête. L’étude de ce contenu met en jeu l’extraction d’unités informatives (ou descripteurs), le support observable de l’information. Les unités informatives les plus évidentes sont les mots pour un contenu textuel, les histogrammes de couleurs pour une image et les fréquences pour un signal sonore. Cette notion d’unité informative est dérivée du processus de généralisation, ou conceptualisation, propre au système cognitif humain. Elle implique une hypothèse d’existence de motifs représentant une même idée, une même classe d’objets, un même concept sémantique. Smoliar et al. (1996) nomment expressives les approches fondées sur des unités informatives proches des données observées et sémantiques les approches réalisant une analyse poussée du contenu. Nous nous intéressons dans cette partie uniquement aux unités informatives issues d’une analyse du contenu linguistique, dans l’optique d’analyser la parole extraite de documents audio. La recherche d’information textuelle repose sur la capacité à représenter le fond (niveau sémantique) de façon indépendante de la forme (niveau syntaxique), puis d’effectuer des opérations de comparaison dans l’espace de représentation ainsi formé. Cette opération est nécessaire car la langue offre de nombreuses façons d’exprimer une idée et montre une forte variabilité de forme. Il n’existe pas de bijection entre les mots et les sens associés, un mot pouvant avoir plusieurs sens (polysémie) et plusieurs mots 29  pouvant avoir le même sens (synonymie). En fait, de nombreuses relations lient les concepts dénotés par les mots, comme la relation de généralisation (hyperonymie), ou de spécialisation (hyponymie). De plus, des mots peuvent agir comme représentants d’autres mots, afin d’alléger le discours. Les pronoms sont un bon exemple d’utilisation d’une forme plus courte pour faire référence à un objet que seul le contexte peut définir. Cette utilisation de plusieurs formes pour représenter un même objet ou une même idée s’appelle une anaphore ou cataphore grammaticale (à ne pas confondre avec l’anaphore rhétorique) et le phénomène est connu sous le nom de coréférence. À un plus haut niveau, les nombreuses figures de style, comme la métaphore ou l’euphémisme, altèrent le sens en offrant plusieurs niveaux d’interprétation dépendant du contexte et de la culture. Les nombreux modèles de recherche d’information essaient tous de traiter ces phénomènes de façon plus ou moins implicite, en prenant pour hypothèse qu’un champ lexical donné caractérise suffisamment bien le contenu sémantique associé. Toutefois, de plus en plus d’approches associent à ces modèles des pré-traitements linguistiques pour détecter ces phénomènes de variabilité de la forme et retrouver le fond sous-jacent. Cette section commence par une description de la tâche de recherche documentaire et de son évaluation. Puis, les pré-traitements linguistiques les plus courants sont abordés. Ensuite, les principaux modèles pour estimer la pertinence d’un document à une requête sont présentés. L’expansion de requête vient compléter ces modèles. Enfin, l’impact de l’ensemble des méthodes précédentes sur un média parlé et un aperçu des interactions avec l’utilisateur dans ce cadre sont étudiés. 

Évaluation 

Plusieurs campagnes d’évaluation sont organisées chaque année afin de suivre les avancées dans le domaine de la recherche d’information. Ces campagnes fournissent un protocole et des données d’évaluation aux participants et réalisent un jugement de leurs performances objectif et indépendant. Les plus importantes sont Text REtrieval Conference (TREC1 , Voorhees et Harman, 1999), Cross-Language Evaluation Forum (CLEF2 , Braschler et Peters, 2004), NII Test Collection for IR Systems (NTCIR3 , Kando, 2005). Ces campagnes évaluent la qualité des systèmes de recherche d’information sous diverses conditions (tâche, média, langue, quantité…), selon une souche commune. Pour un besoin utilisateur donné (requête), un système doit générer une liste de réponses (documents) ordonnées par pertinence estimée. Les documents ayant le meilleur score sont considérés comme les plus susceptibles de répondre au besoin utilisateur. Dans le cadre de la recherche documentaire, les références sont constituées d’une annotation binaire4 (pertinent / non-pertinent) de chaque document du corpus pour chaque requête évaluée. Les mesures d’évaluation utilisent la répartition entre documents pertinents et non-pertinents à un rang donné de la liste de résultats (figure 2.1).

Cours gratuitTélécharger le cours complet

Télécharger aussi :

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *