Télécharger le fichier original (Mémoire de fin d’études)
Techniques d’accès à l’information
Les techniques d’accès à l’information permettent à un individu d’obtenir des informations répondant à ses besoins. Nous pouvons les regrouper en deux grands groupes :
– celles qui reposent sur une approche service au comptoir ou pull qui consistent à renvoyer des informations répondant à une demande ex-plicite d’un individu. C’est le cas de la Recherche d’Information (RI) ;
– celles qui reposent sur une approche service à domicile ou push qui consistent à renvoyer automatiquement à un individu des informations qui pourraient l’intéresser, sans qu’il n’en ait fait explicitement la de-mande. C’est le cas du Filtrage (ou Recommandation) d’Information (FI).
Les sections 1.2.1 et 1.2.2 présentent différentes techniques d’accès à l’in-formation au travers des processus de recherche (pull) et de filtrage d’infor-mation (push).
Recherche d’Information
Le processus de Recherche d’Information (RI) repose sur l’expression du besoin d’un individu au travers d’une requête formulée dans un langage libre plus ou moins structuré. En réponse à cette requête, un appariement est réa-lisé entre les termes (ou mots-clés) d’indexation de la requête et ceux des in-formations pré-indexées par le système. La recherche d’information est prin-cipalement basée sur le principe d’un appariement optimal, de type vectoriel (cf. section 1.3.3.2) ou probabiliste (cf. section 1.3.3.3) [Rij79] [BYRN99]. Enfin, le système propose traditionnellement à l’individu les informations pertinentes sous forme d’une liste ordonnée selon leur degré de pertinence décroissant.
Cependant en Recherche d’Information, l’intention réelle de l’utilisateur n’est pas toujours évidente dans sa manière de formuler sa requête et cela peut générer des ambiguïtés au niveau du sens des mots qu’elle contient. De nombreuses solutions existent pour préciser le sens d’une requête et on peut citer en particulier :
– les techniques d’expansion de requêtes via des thésaurus [XC96] ou des ontologies [Voo94] [BAGB03] ;
– les techniques de reformulation de requêtes dans des processus de per-sonnalisation de recherche à travers une recherche personnalisée indi-viduelle ou collaborative.
La recherche individuelle personnalisée va consister à : utiliser des ju-gements de pertinence (ou non-pertinence) d’un utilisateur sur un ensemble d’informations pour reformuler sa requête et affiner ainsi la recherche. C’est la méthode de réinjection de pertinence ou relevance feedback [Roc71] [BCSD99] [KV02] ; utiliser la notion de profil long terme des besoins (ou centres d’in-térêt) de l’usager et la notion de profil court terme (ou contexte) de ses besoins (cf. section 1.3.1.2), pour aider à l’interprétation de ses requêtes afin de réévaluer et de réordonnancer les résultats d’une recherche [BBB03a] [BBB04] ; utiliser la notion de contextualisation et d’individualisation pour la personnalisation de la recherche [PSC+ 02] ; etc.
La recherche collaborative [KGB98] quant à elle va consister à utiliser la notion de groupe pour répondre aux besoins des utilisateurs. Ainsi, on va pouvoir reformuler la requête d’un utilisateur avec les termes des documents validés par des utilisateurs de profils similaires au sien, lesquels documents ont été obtenus suite à des requêtes (ou situations de recherche) similaires [JRP01].
Filtrage d’Information
Alors que la Recherche d’Information (RI) est une tâche très interac-tive, celle du Filtrage d’Information (FI) est relativement passive [BC92] car l’utilisateur ne formule pas explicitement ses besoins au travers d’une requête (ou expression d’un besoin ponctuel) comme c’est le cas en RI. En Filtrage d’Information, on utilise plutôt une représentation de l’utilisateur appelé profil utilisateur pour lui envoyer des informations. Ces informations proviennent généralement d’un flux dynamique ou sont obtenues grâce à un agent. Elles sont ensuite comparées aux différents profils disponibles pour déterminer ceux auxquels elles correspondent. Il existe plusieurs méthodes de filtrage [MLR03] :
– le filtrage cognitif ou basé sur le contenu qui utilise la description du contenu des informations pour déterminer à quels profils utilisateurs elles correspondent [Lie95] [Mla96] [PMB96]. Le profil utilisateur, en filtrage cognitif, décrit les centres d’intérêt durables ou récurrents de l’individu qui sont représentés communément par une liste de mots-clés pondérés [Kor97]. Ce profil est obtenu manuellement ou automatique-ment en indexant (cf. section 1.3.2.1), par exemple, les informations sauvegardées par l’utilisateur lors de ses sessions de recherche ;
– le filtrage social ou collaboratif qui utilise les jugements (ou feedback) d’un ensemble d’utilisateurs concernant un ensemble d’informations pour effectuer des recommandations. On utilise une mesure de simi-larité entre jugements d’individus pour déterminer si une information correspond à un individu donné [GNOT92] [KMM+97] [RP97]. La des-cription du contenu réel des informations est ignorée. Le tableau TAB. 1.1 représente des exemples de profils de jugements utilisateurs en fil-trage collaboratif. Le «+» signifie que l’information intéresse l’utilisa-teur, le «-» qu’elle ne l’intéresse pas et le «?» que l’information n’a pas encore été jugée par un utilisateur et pourrait donc être recomman-dée à ce dernier. Les utilisateurs utilisateur1 et utilisateur3 peuvent être considérés comme similaires car ils ont effectué les mêmes juge-ments. On peut donc recommander le document document4 à l’utilisa-teur utilisateur3 car l’utilisateur utilisateur1 l’a déjà jugé comme étant intéressant ;
– le filtrage démographique qui utilise les données démographiques des utilisateurs (sexe, âge, profession, ville d’origine, etc.) pour les regrou-per par groupes [Kru97] et leur faire des recommandations. Pour cela, on se base sur une catégorisation des informations en fonction des don.
Techniques d’accès à l’information
Les techniques d’accès à l’information permettent à un individu d’obtenir des informations répondant à ses besoins. Nous pouvons les regrouper en deux grands groupes :
– celles qui reposent sur une approche service au comptoir ou pull qui consistent à renvoyer des informations répondant à une demande ex-plicite d’un individu. C’est le cas de la Recherche d’Information (RI) ;
– celles qui reposent sur une approche service à domicile ou push qui consistent à renvoyer automatiquement à un individu des informations qui pourraient l’intéresser, sans qu’il n’en ait fait explicitement la de-mande. C’est le cas du Filtrage (ou Recommandation) d’Information (FI).
Les sections 1.2.1 et 1.2.2 présentent différentes techniques d’accès à l’in-formation au travers des processus de recherche (pull) et de filtrage d’infor-mation (push).
Recherche d’Information
Le processus de Recherche d’Information (RI) repose sur l’expression du besoin d’un individu au travers d’une requête formulée dans un langage libre plus ou moins structuré. En réponse à cette requête, un appariement est réa-lisé entre les termes (ou mots-clés) d’indexation de la requête et ceux des in-formations pré-indexées par le système. La recherche d’information est prin-cipalement basée sur le principe d’un appariement optimal, de type vectoriel (cf. section 1.3.3.2) ou probabiliste (cf. section 1.3.3.3) [Rij79] [BYRN99]. Enfin, le système propose traditionnellement à l’individu les informations pertinentes sous forme d’une liste ordonnée selon leur degré de pertinence décroissant.
Cependant en Recherche d’Information, l’intention réelle de l’utilisateur n’est pas toujours évidente dans sa manière de formuler sa requête et cela peut générer des ambiguïtés au niveau du sens des mots qu’elle contient. De nombreuses solutions existent pour préciser le sens d’une requête et on peut citer en particulier :
– les techniques d’expansion de requêtes via des thésaurus [XC96] ou des ontologies [Voo94] [BAGB03] ;
– les techniques de reformulation de requêtes dans des processus de per-sonnalisation de recherche à travers une recherche personnalisée indi-viduelle ou collaborative.
La recherche individuelle personnalisée va consister à : utiliser des ju-gements de pertinence (ou non-pertinence) d’un utilisateur sur un ensemble d’informations pour reformuler sa requête et affiner ainsi la recherche. C’est la méthode de réinjection de pertinence ou relevance feedback [Roc71] [BCSD99] [KV02] ; utiliser la notion de profil long terme des besoins (ou centres d’in-térêt) de l’usager et la notion de profil court terme (ou contexte) de ses besoins (cf. section 1.3.1.2), pour aider à l’interprétation de ses requêtes afin de réévaluer et de réordonnancer les résultats d’une recherche [BBB03a] [BBB04] ; utiliser la notion de contextualisation et d’individualisation pour la personnalisation de la recherche [PSC+ 02] ; etc.
La recherche collaborative [KGB98] quant à elle va consister à utiliser la notion de groupe pour répondre aux besoins des utilisateurs. Ainsi, on va pouvoir reformuler la requête d’un utilisateur avec les termes des documents validés par des utilisateurs de profils similaires au sien, lesquels documents ont été obtenus suite à des requêtes (ou situations de recherche) similaires [JRP01].
Filtrage d’Information
Alors que la Recherche d’Information (RI) est une tâche très interac-tive, celle du Filtrage d’Information (FI) est relativement passive [BC92] car l’utilisateur ne formule pas explicitement ses besoins au travers d’une requête (ou expression d’un besoin ponctuel) comme c’est le cas en RI. En Filtrage d’Information, on utilise plutôt une représentation de l’utilisateur appelé profil utilisateur pour lui envoyer des informations. Ces informations proviennent généralement d’un flux dynamique ou sont obtenues grâce à un agent. Elles sont ensuite comparées aux différents profils disponibles pour déterminer ceux auxquels elles correspondent. Il existe plusieurs méthodes de filtrage [MLR03] :
– le filtrage cognitif ou basé sur le contenu qui utilise la description du contenu des informations pour déterminer à quels profils utilisateurs elles correspondent [Lie95] [Mla96] [PMB96]. Le profil utilisateur, en filtrage cognitif, décrit les centres d’intérêt durables ou récurrents de l’individu qui sont représentés communément par une liste de mots-clés pondérés [Kor97]. Ce profil est obtenu manuellement ou automatique-ment en indexant (cf. section 1.3.2.1), par exemple, les informations sauvegardées par l’utilisateur lors de ses sessions de recherche ;
– le filtrage social ou collaboratif qui utilise les jugements (ou feedback) d’un ensemble d’utilisateurs concernant un ensemble d’informations pour effectuer des recommandations. On utilise une mesure de simi-larité entre jugements d’individus pour déterminer si une information correspond à un individu donné [GNOT92] [KMM+97] [RP97]. La des-cription du contenu réel des informations est ignorée. Le tableau TAB. 1.1 représente des exemples de profils de jugements utilisateurs en fil-trage collaboratif. Le «+» signifie que l’information intéresse l’utilisa-teur, le «-» qu’elle ne l’intéresse pas et le «?» que l’information n’a pas encore été jugée par un utilisateur et pourrait donc être recomman-dée à ce dernier. Les utilisateurs utilisateur1 et utilisateur3 peuvent être considérés comme similaires car ils ont effectué les mêmes juge-ments. On peut donc recommander le document document4 à l’utilisa-teur utilisateur3 car l’utilisateur utilisateur1 l’a déjà jugé comme étant intéressant ;
– le filtrage démographique qui utilise les données démographiques des utilisateurs (sexe, âge, profession, ville d’origine, etc.) pour les regrou-per par groupes [Kru97] et leur faire des recommandations. Pour cela, on se base sur une catégorisation des informations en fonction des données démographiques des individus. Cette catégorisation permet de dé-terminer quel type d’information est appréciée par un type d’utilisateur (relativement à leur données démographiques) particulier. Pour cela, on peut procéder à une catégorisation manuelle ou on peut se baser, par exemple, sur les jugements des utilisateurs pour déduire le type d’indi-vidu (groupe) auquel correspond une information [Paz99]. Le tableau TAB. 1.2 représente des exemples de profils utilisateurs en filtrage dé-mographique. Le «+» signifie que l’information intéresse l’utilisateur, le «-» qu’elle ne l’intéresse pas et le «?» que l’information n’a pas en-core été jugée par un utilisateur et pourrait donc être recommandée
à ce dernier. On peut déduire du tableau TAB. 1.2, trois groupes de personnes du fait de la similarité de leurs jugements : les femmes de moins de 18 ans, les femmes de plus de 25 ans et les hommes de moins de 18 ans. On peut donc faire des recommandations relativement aux jugements effectués dans ces groupes.
Ces approches ne sont pas exclusives et différentes méthodes hybrides, combinant ces différents types de filtrage, ont été développées [GSK+99] [Paz99]. L’utilisation des approches hybrides permet d’améliorer la perti-nence des résultats des systèmes de filtrage en palliant certaines limites des types de filtrage présentés précédemment [BS97] comme : la sur-spécialisation en filtrage basé sur le contenu ; l’obtention des jugements qui est une tâche coûteuse pour les utilisateurs, etc.
Comme exemples d’approches de filtrage hybride, on peut citer :
– le filtrage collaboratif via le contenu [Paz99] qui va permettre de déter-miner des similarités entre utilisateurs via leur profil de besoins (centres d’intérêt), construit à partir du contenu des informations qu’ils ont ju-gées. Ainsi, pour identifier des groupes d’utilisateurs on ne se basera plus uniquement sur une mesure de similarité entre jugements utilisa-teurs. L’intérêt particulier de ce type de filtrage hybride est qu’il va permettre de faire des recommandations à un nouvel utilisateur, en l’affectant à un groupe via son profil des besoins. En filtrage collabo-ratif pur, il aurait fallut attendre que cet utilisateur ait effectué des jugements (sur des informations) et qu’avec ces jugements on puisse l’associer à d’autres utilisateurs pour pouvoir lui faire des recomman-dations. Cela nécessite en général un certain temps : c’est le problème de l’entonoir (ou boîte noire) qui se pose généralement pour le démar-rage d’un filtrage collaboratif ;
– les approches réclusives [Yag02] qui sont basées sur la recherche d’une similarité entre objets en comparant leur description respective (ou contenu respectif). Ainsi, on pourra recommander une information si sa description est similaire à une autre information qui elle a déjà été validée (c’est-à-dire jugée intéressante) par l’utilisateur. L’intérêt de cette approche hybride est que l’on va pouvoir recommander une information qui n’a pas encore été jugée. En filtrage collaboratif pur, il faut attendre qu’une information soit jugée par au moins un utilisateur pour pouvoir la recommander ;
– etc.
Pour résumer, les différentes techniques d’accès à l’information partagent le même objectif qui est d’aider l’utilisateur à obtenir les informations qu’il recherche. Pour cela, on doit décrire les informations manipulées par les pro-cessus de recherche et de recommandation d’information. Cette description des informations est désignée sous le nom de profil (ou modèle ou représenta-tion). L’appariement (ou mesure de similarité) entre ces profils va permettre de décider de la restitution ou non des informations aux usagers.
Le filtrage cognitif ou basé sur le contenu peut-être considéré comme le processus dual de la recherche d’information individuelle comme l’illustre la figure FIG. 1.1, décrivant les modèles en U de la RI et du FI. Cepen-dant, quand on est dans un contexte collaboratif ou plusieurs utilisateurs concourent à la restitution d’un résultat donné, les appariements ou compa-raisons de profils ne se font plus uniquement entre les informations mises à disposition et les besoins des usagers de ces informations mais aussi entre informations, entre usagers et jugements d’usagers. C’est le cas typique de la recherche collaborative, du filtrage collaboratif, du filtrage démographique et des approches hybrides d’accès à l’information qui utilisent ces techniques.
FIG. 1.1 – (a) Modèle général en U de la Recherche d’Information individuelle (b) Modèle général en U du Filtrage d’Information basé sur le contenu
Ainsi, on va distinguer, dans les techniques d’accès à l’information, dif-férentes combinaisons de profils pour effectuer des appariements :
– représentation (ou profil) de la requête (reformulée ou pas) et repré-sentation (ou profil) de l’information à restituer ;
– représentation d’une requête et représentation d’une autre requête ;
– profil des besoins d’un utilisateur et profil des besoins d’un autre uti-lisateur ;
– profil des besoins d’un utilisateur et profil d’une information mise à disposition ;
– profil d’une information et profil d’une autre information mise à dis-position ;
– profil des jugements d’un utilisateur et profil des jugements d’un autre utilisateur ;
– profil des données démographiques d’un utilisateur et profil des données démographiques d’un autre utilisateur.
Dans la section suivante, nous présentons avec plus de détails la notion de profil telle qu’elle est utilisée dans les différentes techniques d’accès à l’information.
Profils : types, méthodes de construction, mo-dèles de représentation et appariements
De façon générale, le profil d’un objet est un ensemble de caractéristiques permettant de l’identifier ou de le représenter. Nous avons étudié les profils dans les techniques d’accès à l’information sous différents angles : types, mé-thodes de construction, modèles de représentation et appariements de profils.
Types de profils
Les profils utilisés dans les techniques d’accès à l’information sont de nature très variée et on peut les classifier en deux grands groupes :
– ceux relatifs aux informations mises à disposition ;
– ceux relatifs aux utilisateurs de ces informations.
Profils relatifs aux informations mises à disposition
Le profil des informations mises à disposition correspond à la description de ces dernières qui est souvent réduite, en RI ou FI, à une liste de mots-clés pondérés décrivant le contenu (sémantique) de ces informations. Plusieurs travaux permettent actuellement de décrire les informations en utilisant éga-lement d’autres critères que ceux liés à leur contenu effectif. On peut citer par exemple les métadonnées du Dublin Core 1, pour la description de res-sources. Nous pouvons également citer les travaux de Lainé-Cruzel [LC99] qui permettent de définir des propriétés liées à l’ensemble d’un document (profession de l’auteur, type de document, etc.) ainsi que celles relatives à des parties de documents (type d’unité documentaire, forme discursive, style, etc.) afin de restreindre les documents pertinents (du point de vue du sujet dont ils traitent) aux seuls documents exploitables et réellement utilisables. De même, une liste non exhaustive de métadonnées pour l’annotation qua-litative de documents est donnée par Berti-Equille [BE02] [BE03] dans le contexte de la recommandation multi-critères.
Notons que les informations à restituer par les processus de RI ou FI peuvent être de différents niveaux de granularité : collections de documents [GGMT99], documents et granules ou parties de document [INEX] 2, [TREC] 3. De plus, les profils de ces informations peuvent être composés soit unique-ment de mots-clés pondérés décrivant leur contenu, soit de mots-clés pondé-rés et de métadonnées (cf. FIG. 1.2).
Profils relatifs aux utilisateurs
Le profil utilisateur est une banque de données qui regroupe les différents sujets ou thèmes susceptibles d’intéresser un utilisateur donné [BMRM96]. Il peut également être vu comme une collection d’informations diverses sur l’utilisateur (cf. FIG. 1.3). Cette collection va permettre d’illustrer un en-semble de caractéristiques avec des valeurs associées [Mar02] contenant par exemple ce que l’utilisateur préfère, ce qu’il est capable de faire, l’historique de ses actions dans le temps, ses données démographiques, etc.
Les utilisateurs peuvent être étudiés également selon différents niveaux de granularité [PSC+ 02] : individu, groupe d’utilisateurs ou population repré-sentant tous les utilisateurs. Les profils utilisateurs peuvent donc décrire des individus ou des groupes d’individus. Ils peuvent également être de différents types, chacun décrivant une facette (ou vue) de l’utilisateur comme :
– les profils de court terme ou de long terme qui sont liés au temps d’apprentissage considéré pour l’obtention des informations du pro-fil [WIY99] [MT02a] [MT02b]. Le profil court terme peut être, par exemple, le profil de l’utilisateur durant une session de recherche. Il peut être assimilé au contexte de recherche de ce dernier. Le profil long terme peut correspondre, quant à lui, au profil (description) de l’utilisateur construit sur plusieurs sessions de recherche. Ainsi, le pro-fil court terme va permettre de préciser l’objectif à court terme d’un utilisateur tandis que le profil long terme permet de préciser l’objectif à priori de l’utilisateur indépendamment de sa session de recherche. Le profil court terme est très important car il permet de se rendre compte des changements de centres d’intérêt ou de préférences d’un utilisateur pour mieux s’adapter à celui-ci. En résumé, les profils long terme sont obtenus après un temps d’apprentissage important contrairement aux profils court terme ;
– les profils positif ou négatif qui permettent de préciser ce que l’utilisa-teur aime et ce qu’il n’aime pas [HKNH00]. La notion de profil négatif est né du fait que la plupart des systèmes de filtrage d’information em-ploient des valeurs de seuil assez élevées pour éviter de sélectionner des documents non pertinents. Cette approche engendre dans certains cas, la non-sélection de documents pertinents dont la valeur de similarité avec le profil est inférieur au seuil. Pour résoudre ce problème, Hoashi [HKNH00] introduit la notion de profil négatif. Pour cela, il effectue d’abord un premier filtrage avec le profil positif de l’utilisateur et par la suite, un second filtrage avec le profil négatif de l’utilisateur.
En résumé, la structure d’un profil quelconque, en RI ou FI, peut être composée :
– d’un seul critère qui est lié au contenu des informations à savoir : mots-clés pour les profils d’informations et centres d’intérêt pour les profils utilisateurs. Pour ce dernier, on parle généralement de profils des be-soins utilisateurs ;
– de plusieurs critères. Dans ce cas, on a un profil étendu via des méta-données par exemple (cf. FIG. 1.2 et FIG. 1.3).
La typologie structurelle d’un profil peut donc être mono-critère [PMB96] [Amm03] ou multi-critères [LC99] [BE02].
Par ailleurs, selon ce que les profils représentent au niveau sémantique, on va distinguer également dans la littérature différents types de profils. Les tableaux TAB. 1.4 et TAB. 1.5 représentent des typologies sémantiques de profils.
Table des matières
Introduction générale
1 Étude bibliographique : Accès personnalisé à l’information
1.1 Introduction
1.2 Techniques d’accès à l’information
1.2.1 Recherche d’Information
1.2.2 Filtrage d’Information
1.3 Profils : types, méthodes de construction, modèles de représentation et appariements
1.3.1 Types de profils
1.3.1.1 Profils relatifs aux informations mises à disposition
1.3.1.2 Profils relatifs aux utilisateurs
1.3.2 Méthodes de construction de profils
1.3.2.1 Indexation
1.3.2.2 Clustering et Approches par stéréotypes
1.3.2.3 Apprentissage de profils utilisateurs par profiling
1.3.3 Modèles de représentation et appariements de profils
1.3.3.1 Modèle booléen et booléen étendu
1.3.3.2 Modèle vectoriel
1.3.3.3 Modèle probabiliste
1.3.3.4 Autres modèles de représentation
1.4 Personnalisation et adaptation des processus
1.5 Étude comparative de systèmes de personnalisation pour l’accès à l’information
1.6 Conclusion
2 Une approche à base de profils pour un accès personnalisé à l’information
2.1 Introduction
2.2 Cadre générique pour l’accès personnalisé à l’information
2.2.1 Architecture de recherche et de recommandation à base de profils
2.2.2 Modèle générique de profil
2.3 Utilisation de la structure et du contenu des profils pour l’accès à l’information
2.3.1 Appariement de profils pour l’accès à l’information
2.3.1.1 Méthode de combinaison d’appariements
2.3.1.2 Illustration de la combinaison d’appariements et influence des valeurs nulles
2.3.2 Transformation de profils
2.3.2.1 Méthode de transformation de profils composés d’autres profils
2.3.2.2 Illustration de la méthode de transformation de profils
2.4 Conclusion
Conclusion générale
Bibliographie
Index