SARIPOD : Système multi-Agent de Recherche Intelligente POssibiliste de Documents Web

SARIPOD : Système multi-Agent de Recherche
Intelligente POssibiliste de Documents Web

Utilisateur, besoin d’information, profil et requête

Dans les années 1980, le paradigme de la recherche d’information a commencé à s’élargir pour inclure les utilisateurs et leur intéraction avec le système. Il s’agit de paradigme cognitif orienté-utilisateur introduit par [Ingwersen, 1992]. Les systèmes d’information sont alors considérés comme des systèmes de communication entre un producteur d’information (l’auteur) et un utilisateur, le système informatique ayant pour objectif de faciliter cette communication. Pour satisfaire au mieux l’utilisateur, il est essentiel de comprendre ses mécanismes cognitifs. Il est donc essentiel de le modéliser. Dans la majorité des travaux qui se sont intéressés à l’utilisateur et sa modélisation dans un processus de recherche d’information on introduit le terme usager pour dire utilisateur. En fait, les travaux liés à la RI modélisent le comportement de l’usager, mais ne permettent pas une compréhension de son système cognitif (domaine de la psychologie cognitive). Selon [Daniels, 1986], deux classes de modèles d’usagers ont été proposées : Requête Besoins en information Utilisateur Corpus Documentaires Préférences Modèle de Requête Modèle de Documents Documents pertinents Evaluation Rétroaction Analyse et indexation Appariement Chapitre 1 : Les Systèmes de Recherche d’Information 16 • Les modèles analytiques qui modélisent le comportement interne de l’usager : connaissances, processus cognitif, etc. • Les modèles quantitatifs et empiriques qui modélisent le comportement externe de l’usager. Ces modèles ont été classés suivant trois dimensions : • Le modèle canonique opposé à une collection de modèles d’utilisateurs individuels. • Le modèle explicite construit par l’utilisateur ou le concepteur du système qu’on oppose au modèle implicite construit par l’ordinateur sur la base du comportement de l’utilisateur. • Le modèle basé sur des caractéristiques persistantes (à long terme) à l’opposé du modèle basé sur des caractéristiques ponctuelles (à court terme). [Daniels, 1986] propose de modéliser l’utilisateur avec les paramètres suivants : • USER : correspond au statut de l’usager. • UGOAL : correspond aux buts de l’usager (ses préférences ou stratégies de recherche). • KNOW : définit le niveau d’expertise ou le degré de connaisssance de l’utilisateur dans le domaine. • IRS : définit la familiarité de l’usager avec les systèmes documentaires. • BACK : correspond à l’expérience de l’usager vis-à-vis du système concerné. Ces différents éléments peuvent être regroupés dans un profil utilisateur. Ils appartiennent au système cognitif de l’utilisateur et permettent d’effectuer un filtrage initial sur les documents et de choisir des présentations personnalisées, adaptées au profil. Selon [Cluzeau-Ciry, 1988], quatre catégories de demande ou stratégies de recherche ont été proposées : • Une demande précise exprimée lorsque l’utilisateur sait exactement ce qu’il cherche. • Une demande thématique utilisée lorsque l’utilisateur cherche à explorer le corpus sur un thème particulier. • Une demande connotative exprimée dans le contexte de la recherche d’image par l’expression d’un visage par exemple, par métaphore dans le contexte de la recherche textuelle. • Une demande exploratoire définit quand l’utilisateur veut se faire une idée du contenu du corpus ; et c’est après une consultation préalable que seront définis plus précisément ses besoins.

Requête en RI

Une requête désigne une interrogation d’une base d’informations, portant sur les éléments qu’elle contient. Une requête peut être exprimée de différentes manières : – En langage naturel en utilisant des mots non-contrôlés ; – En utilisant des phrases courtes en langage naturel ; – Sous forme de textes ou de documents en langage naturel. On qualifie ceci par la requête par l’exemple ou par similarité (QBE : Query By Example) ; Chapitre 1 : Les Systèmes de Recherche d’Information 17 – Sous forme de grille ou formulaire sur les champs de catalogag1 ou plus généralement sur des champs issus d’une structure logique. En recherche d’information, deux types de requêtes ont été utilisés : une requête vectorielle exprimée à travers des termes pondérés et une requête booléenne exprimée via des termes connectés par des opérateurs booléens. Ces deux types des requêtes seront détaillés dans le chapitre suivant. D’autre part, vue que les requêtes sont parfois complexes, il est conseillé de les sauvegarder pour des réutilisations ultérieures. [Kammoun-Bouzaïene, 2006] a introduit donc en plus du profil utilisateur le profil de requêtes. Cette dernière perspective est appliquée dans le domaine de la diffusion sélective de l’information ou la diffusion ciblée. En fait, les profils de requêtes seront utilisés pour scruter systématiquement et en temps réel les nouvelles informations entrées dans la base pour les diffuser aux utilisateurs concernés. De notre part, nous proposons un SRI qui tient compte des requêtes déjà joué par le système. En effet, l’enregistrement de ces requêtes ainsi que leurs réponses retournées par le système dans une base d’historique servira d’avantage pour des réutilisations ultérieures. Nous détaillons le processus de gestion de l’historique dans le système SARIPOD dans le chapitre 5.

Représentation des résulats de requêtes

La majorité des SRI permettent de restituer les documents en les classant par ordre de pertinence décroissante par rapport à la requête. Ceci permet aux utilisateurs de ne s’intéresser qu’à ceux qui ont un score de pertinence supérieur à un certain seuil. La notion de pertinence d’un document vis-à-vis une requête sera détaillée dans la section 4 de ce chapitre. Cette restitution des documents par rapport à une requête peut se faire sous plusieurs formes : – Soit en proposant des résumés automatiques du document restitué, dont la taille est variable. Ces résumés sont construits en attribuant une importance aux phrases qui contiennent les termes de la requête afin qu’ils soient adaptés aux sujets de recherche de chaque utilisateur [Tombros et Sanderson, 1998]. – Soit sous forme d’une liste de titres ou de passages qui contiennent les termes de la requête mais qu’il n’est pas envisageable de présenter le document dans son intégralité sauf s’il est suffisamment court. Dans d’autres systèmes, plutôt que d’interroger le SRI par le biais d’une requête exprimée de l’une des manières décrites ci-dessus, l’intérrogation est basée sur la visualisation globale de l’ensemble des documents du corpus et sur des outils qui permettent d’exploiter cet ensemble en utilisant notamment une approche classificatoire, ou encore la navigation à travers une carte explicitant ces classes et les différentes relations qui peuvent les liers. D’autre modalité de restitution se fait sous forme graphique : – Soit par une représentation graphique globale, issue généralement des méthodes de classification et particulièrement des cartes auto-organisatrices de Kohonen. Parmi ces systèmes citons : NEURODOC [Lelu et François, 1992], WEBSOM [Kohonen et al., 1996], MULTISOM [Lamirel, 1995] [François et al., 2003].

Table des matières

Introduction générale
1. Problématique de la thèse
2. Organisation de la thèse
Première Partie : Etat de l’art sur la Recherche d’Information
Chapitre 1 : Les Systèmes de Recherche d’Information
1. Les composants d’un SRI
2. Utilisateur, besoin d’information, profil et requête
2.1 Requête en RI
2.2 Représentation des résulats de requêtes
3. Analyse et indexation des documents et des requêtes
3.1 Approche basée sur la fréquence d’occurrences
3.2 Approche basée sur la valeur de discrimination
3.3 Approche basée sur tf x idf
3.4 La pondération de termes
3.5 Filtrage des mots fonctionnel
3.6 Lemmatisation
3.7 L’approche basée sur une indexation
4. Notion de pertinence
5. Evaluation d’un système de RI
5.1 Corpus de test (références
5.2 Rappel et Précision
6. Reformulation de la requête
6.1 Rétroaction de pertinence (Relevance Feedback)
6.2 Expansion de requêtes
6.3 Les problèmes posés par la reformulation de la requête
7. Conclusion
Chapitre 2 : Les modèles de la Recherche d’Information
1. Modèle « Matching score »
2. Modèle booléen
2.1 Modèle Booléen basé sur des ensembles flous
2.2 Modèle booléen étendu ou P-Norme
3. Modèle vectoriel
3.1 Modèle vectoriel généralisé
3.2 Modèle vectoriel et domaines sémantiques
4. Modèle probabiliste
5. Reformulation de requête dans ces modèle
5.1 Reformulation de la requête dans le modèle booléen
5.2 Reformulation de la requête dans le modèle vectoriel
5.3 Reformulation de la requête dans le modèle probabiliste
5.4 Autres approches de reformulation de requêtes
6. Conclusion
Chapitre 3 : Modèle Bayésien versus Modèle Possibiste de Recherche d’Information
1. Les Réseaux Bayésiens
1.1 Définition
1.2 Principe du Réseau Bayésien
1.3 Construction de la structure du RB par apprentissage
1.4 Inférence dans les Réseaux Bayésiens
1.5 Synthèse
2. Modèle Bayésien de RI
2.1 Architecture générale du modèle Bayésien
2.2 Les modèles de RI basés sur les réseaux Bayésiens
3. Reformulation de requêtes dans le modèle Bayésien
3.1 Repondération de termes de la requête initiale Q
3.2 Expansion de la requête
4. Les Réseaux Possibilistes
4.1 La théorie des possibilités
4.2 Réseaux Possibilistes (RP)
4.3 Les interprétations de la théorie des possibilités
5. Modèle possibiliste quantitatif de RI
5.1 Architecture du modèle
5.2 Evaluation des poids du réseau
5.3 Un simple schéma de propagation
6. Reformulation de requêtes dans le modèle possibiliste
6.1 Formules basées sur la nécessité de termes
6.2 Formules basées sur la possibilité de termes
6.3 Formules basées sur la possibilité et la nécessité
7. Modèle Bayésien versus Modèle Possibiliste
8. Conclusion
Deuxième Partie : Conception et architecture d’un Système multi-Agent de Recherche
Intelligente POssibiliste de Documents Web, SARIPOD
Chapitre 4 : Modèle d’un SRI à base de Réseaux Petits Mondes Hiérarchiques et de Réseaux Possibilistes
1. Modèle conceptuel du système SARIPOD
2. Les RPMH du système SARIPOD
2.1 Définition du RPMH
2.2 Approche générique de génération de composantes de sens dans un réseau d’informations
2.3 Conclusion
3. Le Réseau Possibiliste du système SARIPOD
3.1 Apport de l’approche qualitative du système SARIPOD
3.2 Pondération des termes de la requête dans le système SARIPOD
4. Travaux similaires à notre approche
5. Conclusion
Chapitre 5 : Spécification et conception du système SARIPOD
1. Spécification du système SARIPOD
1.1 Module de construction du RPMH de dictionnaire
1.2 Module de reformulation de la requête utilisateur
1.3 Module de “Crawlage” stratégique
1.4 Module de construction du RPMH de pages Web
1.5 Module d’analyse de documents Web
1.6 Module de tri de documents par leurs pertinences possibilistes
1.7 Module d’optimisation du système SARIPOD
2. Conception du système SARIPOD
2.1 Conception et mise en œuvre du RPMH de dictionnaire
2.2 Conception et mise en œuvre du crawlage stratégique
2.3 Conception et mise en œuvre de l’analyse de document Web
2.4 Conception et mise en œuvre du tri de documents par pertinence possibiliste
2.5 Conception et mise en œuvre du module d’optimisation
3. Conclusion
Chapitre 6 : Réalisation et expérimentation du système SARIPOD
1. Cadre du travail
1.1 Environnement Logiciel
1.2 La plate-forme multi-agent Jade
2. Les agents du système SARIPOD
2.1 Les couches d’agents du SARIPOD
2.2 Rôle des différents agents
3. Implémentation du système SARIPOD
3.1 Interfaces principales du SARIPOD
3.2 Interfaces du RPMH de pages Web
3.3 Interfaces du RPMH de Dictionnaire
4. Expérimentations et résultats
4.1 Reformulation sémantique de requêtes
4.2 Comparaison avec les travaux de [Gaume et al., 2004]
4.3 Classification des documents
4.4 Comparaison avec le SRI SARCI
5. Conclusion
Conclusion générale et Perspectives
1. Choix principaux
2. Contribution principale
3. Perspectives
Bibliographie
Annexe 1 : Format XML du dictionnaire français Le Grand Robert
Annexe 2 : Les systèmes multi-agents et la Recherche d’Information
Annexe 3 : Données et résultats du RPMH de dictionnaire
Annexe 4 : Données et résultats du RPMH de pages Web
Annexe 5 : Résultats des expérimentations