Les systèmes de recherche d’Information
L’objectif principal d’un SRI est de mettre en œuvre un processus de comparaison entre le besoin utilisateur et les documents d’une collection dans le but de retrouver ceux qui sont pertinents. L’élaboration d’un mécanisme de recherche d’information pose alors des problèmes liés tant à la représentation qu’à la localisation de l’information pertinente. Tout au long de ce chapitre, notre intérêt se porte sur les principes de la recherche d’information, ses notions de bases ainsi que les différentes approches adoptées.
Définition
Un SRI est un système qui gère une collection d’informations organisée sous forme d’une représentation intermédiaire qui reflète aussi fidèlement que possible le contenu des documents. Ceci est réalisé grâce à un processus préalable d’indexation manuelle ou automatique. La recherche d’information désigne alors le processus qui permet, à partir d’une expression des besoins d’information d’un utilisateur, de retrouver l’ensemble des documents contenant l’information recherchée. Le résultat est donné par la mise en œuvre d’un mécanisme d’appariement entre la requête de l’utilisateur et les documents ou plus exactement entre la représentation de la requête et la représentation des documents [Ouaneche, 13].
Notions de base dans un SRI :
On distingue quatre notions de base dans un SRI:
➤ La notion de document : L’ensemble des documents sur lesquels portera la recherche est stocké dans une banque de données (sur le Web). Un document est le type d’objet de base géré par le système.
➤ La notion de besoin d’information d’un utilisateur (requête): Ce besoin est exprimé par une requête spécifiée dans un formalisme propre au système. Le formalisme de spécification de la requête peut être en langage naturel.
➤ Notion de correspondance entre la requête et les documents: Une fois la requête spécifiée, le système tente de retrouver les documents qui correspondent à la requête en se basant sur une mesure de similarité
➤ La notion de contexte de l’application : Le contexte de l’application représente l’univers dans lequel le système fonctionne. L’univers est nécessaire aux SRI pour une bonne compréhension des besoins des utilisateurs. Un SRI doit être capable de retrouver les documents pertinents à partir d’une banque de données , satisfaisant la requête posée par un utilisateur et traduisant un besoin d’information donné.
Architecture générale des systèmes de recherche d’information
Processus de représentation (indexation)
La recherche d’information(RI) par un parcours complet de tous les textes de la collection de documents n’est pas pratique [Bouidghaen, 11]. Donc on utilise une opération appelée l’indexation qui consiste à créer un ensemble des mots clés (termes) à partir de l’analyse d’un document qui se trouve dans une collection de documents pour que l’exploitation de ces mots clés ou descripteur par le système soit facile. Ces mots clés peuvent être regroupés dans un thésaurus (« en pratique, un thesaurus regroupe plusieurs relations de types linguistique (équivalence, association, hiérarchie) et statistique (pondération)»)[Baziz,05].
L’objectif de cette opération est de garder les termes significatifs de ce document. On distingue deux types d’indexation :
• l’indexation libre : les termes sont extraits du texte à indexer
• l’indexation contrôlée qui s’appuie sur un ensemble prédéfini de termes: le thésaurus. Elle consiste à sélectionner les termes de ce thésaurus qui indexent ce texte.
L’opération d’indexation peut se dérouler en trois modes différents [Kompaoré, 08] [Nassr, 02] :
Indexation manuel :
Chaque document est analysé par un documentaliste ou par un spécialiste du domaine, qui extrait les mots basant sur un vocabulaire contrôlé (liste hiérarchique, thesaurus, lexique,…) [Bouidghaen, 11]. L’avantage de l’indexation manuelle est d’assurer un meilleur rapport entre les documents et les termes choisis par les spécialistes [Baziz, 05], mais l’inconvénient, elle est couteuse en termes de temps (nécessite un temps important) et plus d’effort intellectuel (nombres de personnes).
Indexation semi-automatique :
Appelée aussi indexation supervisée. Ce type d’indexation fait une combinaison des deux modes précédant [Daoud, 09], les termes du document sont extraits en un premier temps par un processus automatique. Mais le choix final des mots clés est fait par l’indexeur ou le spécialiste du domaine, généralement les indexeurs utilisent un vocabulaire contrôlé sous forme de thesaurus ou de base terminologique [Baziz, 05] .
Indexation automatique
L’indexation dans ce cas-là est faite par un SRI basé sur des algorithmes et des méthodes, l’expert du domaine n’intervient pas [Daoud, 09]. Elle détecte d’une façon automatique les concepts significatifs d’un document en analysant le document mot par mot aussi l’élimination des mots vides, la lemmatisation, la pondération des termes, à la fin la création de l’index. Ce type d’indexation est souvent le plus utilisé. [Nassr, 02].
Introduction générale |