Systèmes distribués de recherche et de recommandation

Les nouvelles technologies d’acquisition de l’information, en biologie ou en botanique par exemple, ou encore de mesure (e.g. serres de phénotypages robotisées) ont engendré une création phénoménale de données. Par ailleurs, l’arrivée du Web 2.0 a permis l’élaboration de plateformes de collaboration et de partage dynamique, favorisant le développement de communautés à grande échelle. Nous nous appuyons en particulier sur deux cas d’application réels :
• Données de botanique : l’arrivée des réseaux sociaux a permis la création de communautés en ligne structurées d’observateurs de la nature (e.g. e-bird, xeno-canto, Tela Botanica, Pl@ntNet) qui ont commencé à produire de très grandes collections d’images. Celles-ci sont stockées sur différents sites hétérogènes (e.g. PCs, smartphones, clouds, serveurs). Construire une base de connaissances précises de l’identité, de la distribution géographique et de l’évolution des espèces est essentiel pour un développement pérenne de l’humanité, tout autant que pour la conservation de la biodiversité. Chaque participant à cette création de connaissance partage ainsi bénévolement ses observations de plantes. Cependant, afin de créer réellement de l’information, trois étapes,  sont nécessaires :
1. Partage : tout d’abord l’utilisateur doit partager ses observations, incluant la photographie, la position GPS, la date, etc. ;
2. Identification : l’observation passe ensuite par une phase collaborative d’identification, où elle est associée à plusieurs familles, espèces et genres possibles par les utilisateurs de la plateforme de partage ;
3. Validation : une étape de validation fait enfin ressortir son appartenance correcte, grâce aux votes d’utilisateurs. Le tuple famille, espèce et genre ayant reçu le plus de votes est sélectionné. Cette phase finale permet la création d’une connaissance : la plante xy a été observée (i.e. photographiée) à tel endroit avec telles caractéristiques.

Toutefois, les observations, dans la perspective de leur identification et de leur validation, doivent être re-dirigées vers les bons utilisateurs. Il est nécessaire que ces derniers possèdent la connaissance nécessaire pour achever correctement cette étape. Cependant, ils n’accepteraient pas de devoir uniquement identifier la même plante – ou les mêmes types de plantes. Il s’agit donc de leur retourner un ensemble représentatif et varié des plantes qu’ils peuvent identifier et valider.

• Données de phénotypage : chaque être vivant est décrit par son génotype, c’est-à dire par les caractéristiques génétiques qui lui sont propres. Cependant, chacun se comporte différemment en fonction des stress auxquels il est soumis (e.g. le soleil ou l’absence de soleil est un stress, et une personne qui y sera soumise bronzera ou pas). L’ensemble des caractéristiques ainsi exprimées par un individu s’appelle phénotype. Nous nous intéressons en particulier au phénotypage des plantes. L’objectif de ces recherches est de trouver celles qui résistent plus ou moins bien à certains stress (i.e. climats) afin d’adapter les cultures en conséquence. Les recherches en phénotypage se décomposent en trois étapes principales :
1. Expérimentation : les scientifiques établissent un protocole expérimental dans lequel ils définissent un ensemble de stress auxquels doivent être soumises les plantes. Ces dernières sont disposées au sein de serres et des automates mesurent leurs caractéristiques – exprimées en fonction des stress – de phénotypage  . L’ensemble de ces mesures, ou données brutes, est stocké dans des bases de données,  mais reste inexploitable : il est trop complexe, taché de bruits, etc. Ce dernier point nous introduit à la seconde étape ;
2. Transformation des données : les données brutes, générées précédemment, sont modifiées par un ensemble d’outils mathématiques (e.g. régression linéaire, filtrage, moyenne), afin de les rendre compréhensibles et donc utilisables à des fins de recherche. Le résultat de ces opérations, appelé donnée transformée, peut être un graphique, un tableau ou toutes autres figures ;
3. Publication : enfin, et c’est l’objectif d’un travail de recherche, les résultats scientifiques sont publiés. Ces articles sont textuels mais font référence à toutes les données transformées précédemment créées. Elles y sont directement intégrées au sein de figures ou de tables, ou référencées par des URI ou des URL.

Au milieu des années 90, les systèmes de recommandation (i.e. RS) ont été proposés afin de délivrer les bons contenus aux bons utilisateurs au bon moment, de manière pro-active [3]. Deux grandes catégories de systèmes de recommandation existent. La première consiste à analyser les comportements des utilisateurs et à en détecter des corrélations, des motifs, etc. afin d’effectuer des prédictions quant à celui de l’utilisateur courant : il s’agit du filtrage collaboratif [61, 69, 135]. La seconde méthode exploite les contenus des objets afin d’en extraire des corrélations, des motifs, etc. ; ces derniers sont ensuite utilisés pour recommander à l’utilisateur courant des objets qui sont proches de ceux qu’il a déjà aimé (e.g. acheté, fourni une bonne note). Il s’agit ici du filtrage basé sur les contenus.

Ces méthodes sont parfois combinées afin de n’en garder que les meilleurs aspects au sein de techniques dites de filtrage hybride [5, 56]. Ces systèmes s’appuient traditionnellement sur une matrice, dite « Users × Items », où chaque case représente la note qu’un utilisateur u a associé à un objet i – il est possible de représenter l’idée de partage d’un objet par un utilisateur en remplissant la matrice avec des 1 et des 0 s’il ne partage pas l’objet correspondant. Les prédictions issues de ces modèles de recommandation sont malheureusement statiques ; l’utilisateur ne peut généralement pas interagir avec le système pour mettre à jour ces recommandations, en soumettant par exemple des requêtes à mots clés, ou en commençant à remplir un panier d’achat comme sur Amazon où les recommandations pourraient se faire dynamiquement en fonction de ce dernier (e.g. vous avez acheté un iPhone, peut-être souhaiteriez-vous acheter une housse).

L’application de techniques issues de la recherche d’information, comme les top-k, permet à certains sites collaboratifs cette fonctionnalité [9, 7]. Étant donné un index, une requête q généralement à mots clés, et une fonction de score s, le top-k est un algorithme qui va calculer les k résultats maximisant ce score s(q, index). Ces solutions, combinées avec des techniques de recommandations [9, 12], permettent de retourner à l’utilisateur des résultats à la fois pertinents par rapport à son profil et à sa requête. En botanique, cela consisterait à retourner à un utilisateur u des observations issues de plantes proches de son profil et satisfaisant son besoin immédiat, exprimé par une requête à mots clés.

Cependant, les algorithmes de recommandation ou de recherche d’information ont généralement tendance à retourner des objets déjà populaires – et donc ne nécessitant pas, par définition, de recommandation –, très similaires entre eux et n’apportant pas de nouveauté à l’utilisateur. En effet, puisque les méthodes de recommandation s’appuient sur les notes soumises par les utilisateurs à des objets ou directement sur les objets partagés par ces derniers, les éléments populaires représentent la majorité des notes et donc la majorité des recommandations. De plus, lorsque le contenu des objets est exploité dans le processus de recommandation, les objets retournés aux utilisateurs se retrouvent très similaires entre eux.

Table des matières

1 Introduction
1.1 Motivations et cas d’application
1.2 Problématiques
1.3 Aperçu de l’état de l’art
1.4 Contributions
1.5 Contexte de la thèse
1.6 Organisation de la thèse
2 État de l’art
2.1 Systèmes de recommandation et de recherche de l’information
2.1.1 Présentation et définitions
2.1.2 Modèles de recommandation ou prédiction
2.1.3 Algorithmes de recherche et de recommandation
2.1.4 Diversification et sérendipité
2.2 Systèmes de gestion de données distribués
2.2.1 Présentation et définitions
2.2.2 Catégories de réseaux P2P
2.2.3 Techniques de réplication
2.2.4 Bilan des systèmes de gestion de données distribués
2.3 Systèmes distribués de recherche et de recommandation
2.3.1 Systèmes P2P pour la recherche d’information
2.3.2 Systèmes P2P de prédiction
2.3.3 Systèmes multisites de recherche d’information
2.4 Conclusion et Discussion .
2.4.1 Modèle de recherche et recommandation
2.4.2 Distribution des données
2.4.3 Conclusion
3 Diversification des profils pour la recherche et la recommandation
3.1 Introduction
3.2 Concepts de base et définition du problème
3.3 Modèle de score
3.3.1 Diversification probabiliste
3.3.2 Fonction de score ProfDiv
3.4 Calcul des résultats divers
3.4.1 Algorithme top-k
3.4.2 Diversification des profils
3.4.3 Retours utilisateurs pour adapter la diversité
3.5 Évaluation expérimentale
3.5.1 Mise en place des expériences
3.5.2 Résultats expérimentaux
3.6 Travaux connexes
3.7 Conclusion et perspectives de recherche
Conclusion

Cours gratuitTélécharger le document complet

Télécharger aussi :

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *