SARIPOD : Système multi-Agent de Recherche
Intelligente POssibiliste de Documents Web
Utilisateur, besoin d’information, profil et requête
Dans les années 1980, le paradigme de la recherche d’information a commencé à s’élargir pour inclure les utilisateurs et leur intéraction avec le système. Il s’agit de paradigme cognitif orienté-utilisateur introduit par [Ingwersen, 1992]. Les systèmes d’information sont alors considérés comme des systèmes de communication entre un producteur d’information (l’auteur) et un utilisateur, le système informatique ayant pour objectif de faciliter cette communication. Pour satisfaire au mieux l’utilisateur, il est essentiel de comprendre ses mécanismes cognitifs. Il est donc essentiel de le modéliser. Dans la majorité des travaux qui se sont intéressés à l’utilisateur et sa modélisation dans un processus de recherche d’information on introduit le terme usager pour dire utilisateur. En fait, les travaux liés à la RI modélisent le comportement de l’usager, mais ne permettent pas une compréhension de son système cognitif (domaine de la psychologie cognitive). Selon [Daniels, 1986], deux classes de modèles d’usagers ont été proposées : Requête Besoins en information Utilisateur Corpus Documentaires Préférences Modèle de Requête Modèle de Documents Documents pertinents Evaluation Rétroaction Analyse et indexation Appariement Chapitre 1 : Les Systèmes de Recherche d’Information 16 • Les modèles analytiques qui modélisent le comportement interne de l’usager : connaissances, processus cognitif, etc. • Les modèles quantitatifs et empiriques qui modélisent le comportement externe de l’usager. Ces modèles ont été classés suivant trois dimensions : • Le modèle canonique opposé à une collection de modèles d’utilisateurs individuels. • Le modèle explicite construit par l’utilisateur ou le concepteur du système qu’on oppose au modèle implicite construit par l’ordinateur sur la base du comportement de l’utilisateur. • Le modèle basé sur des caractéristiques persistantes (à long terme) à l’opposé du modèle basé sur des caractéristiques ponctuelles (à court terme). [Daniels, 1986] propose de modéliser l’utilisateur avec les paramètres suivants : • USER : correspond au statut de l’usager. • UGOAL : correspond aux buts de l’usager (ses préférences ou stratégies de recherche). • KNOW : définit le niveau d’expertise ou le degré de connaisssance de l’utilisateur dans le domaine. • IRS : définit la familiarité de l’usager avec les systèmes documentaires. • BACK : correspond à l’expérience de l’usager vis-à-vis du système concerné. Ces différents éléments peuvent être regroupés dans un profil utilisateur. Ils appartiennent au système cognitif de l’utilisateur et permettent d’effectuer un filtrage initial sur les documents et de choisir des présentations personnalisées, adaptées au profil. Selon [Cluzeau-Ciry, 1988], quatre catégories de demande ou stratégies de recherche ont été proposées : • Une demande précise exprimée lorsque l’utilisateur sait exactement ce qu’il cherche. • Une demande thématique utilisée lorsque l’utilisateur cherche à explorer le corpus sur un thème particulier. • Une demande connotative exprimée dans le contexte de la recherche d’image par l’expression d’un visage par exemple, par métaphore dans le contexte de la recherche textuelle. • Une demande exploratoire définit quand l’utilisateur veut se faire une idée du contenu du corpus ; et c’est après une consultation préalable que seront définis plus précisément ses besoins.
Requête en RI
Une requête désigne une interrogation d’une base d’informations, portant sur les éléments qu’elle contient. Une requête peut être exprimée de différentes manières : – En langage naturel en utilisant des mots non-contrôlés ; – En utilisant des phrases courtes en langage naturel ; – Sous forme de textes ou de documents en langage naturel. On qualifie ceci par la requête par l’exemple ou par similarité (QBE : Query By Example) ; Chapitre 1 : Les Systèmes de Recherche d’Information 17 – Sous forme de grille ou formulaire sur les champs de catalogag1 ou plus généralement sur des champs issus d’une structure logique. En recherche d’information, deux types de requêtes ont été utilisés : une requête vectorielle exprimée à travers des termes pondérés et une requête booléenne exprimée via des termes connectés par des opérateurs booléens. Ces deux types des requêtes seront détaillés dans le chapitre suivant. D’autre part, vue que les requêtes sont parfois complexes, il est conseillé de les sauvegarder pour des réutilisations ultérieures. [Kammoun-Bouzaïene, 2006] a introduit donc en plus du profil utilisateur le profil de requêtes. Cette dernière perspective est appliquée dans le domaine de la diffusion sélective de l’information ou la diffusion ciblée. En fait, les profils de requêtes seront utilisés pour scruter systématiquement et en temps réel les nouvelles informations entrées dans la base pour les diffuser aux utilisateurs concernés. De notre part, nous proposons un SRI qui tient compte des requêtes déjà joué par le système. En effet, l’enregistrement de ces requêtes ainsi que leurs réponses retournées par le système dans une base d’historique servira d’avantage pour des réutilisations ultérieures. Nous détaillons le processus de gestion de l’historique dans le système SARIPOD dans le chapitre 5.
Représentation des résulats de requêtes
La majorité des SRI permettent de restituer les documents en les classant par ordre de pertinence décroissante par rapport à la requête. Ceci permet aux utilisateurs de ne s’intéresser qu’à ceux qui ont un score de pertinence supérieur à un certain seuil. La notion de pertinence d’un document vis-à-vis une requête sera détaillée dans la section 4 de ce chapitre. Cette restitution des documents par rapport à une requête peut se faire sous plusieurs formes : – Soit en proposant des résumés automatiques du document restitué, dont la taille est variable. Ces résumés sont construits en attribuant une importance aux phrases qui contiennent les termes de la requête afin qu’ils soient adaptés aux sujets de recherche de chaque utilisateur [Tombros et Sanderson, 1998]. – Soit sous forme d’une liste de titres ou de passages qui contiennent les termes de la requête mais qu’il n’est pas envisageable de présenter le document dans son intégralité sauf s’il est suffisamment court. Dans d’autres systèmes, plutôt que d’interroger le SRI par le biais d’une requête exprimée de l’une des manières décrites ci-dessus, l’intérrogation est basée sur la visualisation globale de l’ensemble des documents du corpus et sur des outils qui permettent d’exploiter cet ensemble en utilisant notamment une approche classificatoire, ou encore la navigation à travers une carte explicitant ces classes et les différentes relations qui peuvent les liers. D’autre modalité de restitution se fait sous forme graphique : – Soit par une représentation graphique globale, issue généralement des méthodes de classification et particulièrement des cartes auto-organisatrices de Kohonen. Parmi ces systèmes citons : NEURODOC [Lelu et François, 1992], WEBSOM [Kohonen et al., 1996], MULTISOM [Lamirel, 1995] [François et al., 2003].
Introduction générale |