Recherche d’information et Traitement Automatique de la Langue Arabe

Recherche d’information et Traitement Automatique de la Langue Arabe

 Concepts de base de la recherche dinformation

Le document et la collection de documents

Les documents jouent un role central en RI car ils sont les sources ou bien les porteurs de l’information. Un document peut être de ni comme étant le support physique de information, qui peut avoir di erentes formes (texte, image, video, etc.). Dans cette thèse nous nous intéressons aux documents textuels en arabe.

Ces documents sont indexes par le SRI en vue de les retrouver pour repondre a des besoins informationnels des utilisateurs. Lensemble des documents interroges ou manipules par le SRI lors de exécution dune requete est communément appele, collection de documents. 

La requete

La requete est la speci cation du besoin en information de l’utilisateur, exprimée par des mots-cles ou des phrases en langage naturel. Lexpression du besoin informationnel de lutilisateur est une etape cruciale en recherche dinformation et peut avoir des e ets negatifs sur la pertinence des documents retournes. En e et, les requetes peuvent ne pas exprimer le besoin dinformation de lutilisateur de facons assez precises pour le SRI.

Cela est du, dune part, au fait que lutilisateur na pas forcement une idee precise a propos de la collection de documents sur laquelle il e ectue sa recherche. Dautre part, lutilisateur ignore les parametres fournis par le systeme de recherche pour mieux exprimer sa requete. Pour remedier partiellement a ce probleme, une reformulation de la requete est souvent envisagee pour ameliorer lexpression du besoin en information de lutilisateur.

Notion de pertinence

Dune maniere ideale, un SRI doit retrouver tous les documents pertinents, et en meme temps de recuperer aussi peu de documents non pertinents que possible [Rijsbergen 1979]. La pertinence est ainsi une notion fondamentale en RI, car toutes les evaluations sarti culent autour de cette notion [Borlund 2003]. La de nition de cette notion est complexe, car elle peut intervenir aux di erentes etapes de la RI [Cooper 1971, Saracevic 1975, 10 Chapitre 1. RI et TAL arabe Schamber et al. 1990] et fait intervenir plusieurs notions [Mizzaro 1997].

Generalement, cette notion est de nie par le degre de correspondance entre un document et une requete ou une mesure dinformativite du document a la requete. Cette complexite vient principale ment du fait que les utilisateurs des SRI ont des besoins informationnels varies et quils ont des criteres tres di erents pour juger la pertinence dun document.

Di erents utilisateurs peuvent ainsi avoir des opinions di erentes sur la pertinence de certains documents pour une meme requete, voire un meme utilisateur peut juger di eremment un document en cas devolution des connaissances au sujet. Donc, dun point de vue utilisateur, la pertinence se traduit par les jugements de pertinence de lutilisateur par rapport aux documents retournes par le SRI en reponse a une requete [Mizzaro 1997].

Cependant, dun point de vue systeme, la pertinence se traduit par un score attribue par le SRI qui represente le degre dappariement entre les representations de contenu de la requete et du document [Saracevic 1996]. Contrairement a la pertinence utilisateur, la pertinence systeme est ob jective, elle permet de mesurer la probabilite de pertinence dun document de la collection par rapport a la requete. 

Le processus de la RI

Le but dun systeme SRI est de retrouver, parmi une collection de documents prealablement indexes, les documents qui correspondent au besoin dinformation de lutilisateur ex prime sous forme de requete. Pour cela, un SRI est caracterise par trois composants [Gaussier & Yvon 2012] : 1. un module dindexation des requetes 2. un module dindexation des documents 3. un module dappariement des documents et des requetes

Les deux modules dindexation consistent a analyser les documents et les requetes a n detablir une representation plus riche de leur contenu, dans loptique dameliorer la pertinence du processus dappariement et, par consequent, la performance de SRI. Le module dappariement, qui se base sur un formalisme precis de ni par un modele de RI, consiste a mettre en correspondance les documents et les requetes et a calculer le degre dappariement de leurs representations internes.

Ce degre dappariement est appele aussi le score de pertinence ou encore score de similarite dun document par rapport a la requete . Les documents qui correspondent le mieux a la requete, ou documents juges pertinents par le SRI, sont alors retournes a lutilisateur, dans une liste ordonnee par ordre decroissant de leur score de pertinence. An dameliorer la qualite des resultats de la recherche, le systeme peut etre dote dun mecanisme de reformulation de la requete

Formation et coursTélécharger le document complet

Télécharger aussi :

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *