Prédiction de préférences d’utilisateur à partir d’avis implicites

Les avis explicites

Un système de recommandation d’avis explicites utilise les données pour lesquelles les utilisateurs ont exprimés leurs intérêts par rapport aux objets donnés. Cette information se traduit comme étant l’information fournie par l’utilisateur. Dans cette catégorie, on peut citer les données ou les jugements explicites (feedback explicites) exprimés par les utilisateurs au cours de leurs activités. C’est-à-dire fournir une note sur une échelle de valeurs prédéfinies (les notes que les internautes indiquent sur des produits qu’ils achètent sur l’internet par exemple), faire une action de recommandation (par exemple, un article qu’un utilisateur recommande à un autre utilisateur), exprimer une opinion polarisée sur un objet (par exemple, le clique sur un bouton « j’aime » sur Facebook), etc. Ainsi, les données explicites sont des éléments de données du profil utilisateur qui peuvent directement être utilisées par les mécanismes de personnalisation tels que MyYahoo !, etc. Cependant l’acquisition des données explicites est une tâche qui peut se révéler très lourde pour les utilisateurs qui doivent se porter volontaires de fournir les données demandées (c’est-à-dire les feedback explicites) et qui peuvent entraîner une surcharge cognitive suite aux nombreuses demandes de jugements explicites par les systèmes. La plupart du temps, cela génère un abandon ou un désintéressement des utilisateurs, et il résulte alors une détérioration de l’efficacité des mécanismes s’appuyant sur ces données.
Et théoriquement, un utilisateur ne pourra pas avoir noté l’ensemble des objets si celui-ci est trop grand. La matrice utilisant ainsi les retours explicites sera donc creuse , contrairement à celle utilisant les retours implicites qui sera de forte densité.

Les avis implicites

Par contre, un système de recommandation d’avis implicites utilise diverses sources d’informations sans avoir à demander quoi que ce soit à l’utilisateur. Ces données sont collectées en observant le comportement des utilisateurs ou en scrutant leurs activités (et qui sont généralement utilisées pour déterminer leurs centres d’intérêts). Un exemple d’avis implicite très populaire est l’historique des transactions. D’autres informations comme le temps passé par un utilisateur sur la page descriptive d’un produit, l’historique des produits visités et le temps passé sur certaines pages peuvent toutes être utilisées afin de rendre le système plus performant.
Le principal avantage de la collecte de d’avis implicites est qu’elle ne nécessite aucune implication directe de l’utilisateur, ni de temps passé à émettre des jugements, ni un effort d’attention particulier lors de ses interactions. En effet, toute interaction de l’utilisateur avec le système est considérée comme un jugement d’intérêts.

Systèmes hybrides

Le filtrage par contenus et le filtrage collaboratif étudiés précédemment possèdent chacun leurs avantages et leurs inconvénients. D’une part, le filtrage collaboratif pallie des inconvénients du filtrage par contenu tels que le manque de données subjectives (données explicites de l’utilisateur) ou de scores attribués par les utilisateurs eux-mêmes. D’autre part le filtrage par contenus pallie des inconvénients du filtrage collaboratif tel que le problème des données très éparses ou la complexité de calculs. Le filtrage hybride vise à intégrer ces deux types de filtrages en gardant les avantages de chacun. les systèmes hybrides sont particulièrement utiles lorsque peu d’informations est connue sur l’utilisateur ou sur les items.
La principale difficulté d’un système hybride consiste en l’hybridation elle-même . Comment, à partir des connaissances basées sur le contenu et des différents profils d’utilisateurs, pouvons-nous obtenir une recommandation efficace ? Plusieurs approches ont été proposées dans la littérature et le système de recommandation hybride le plus courant consiste à combiner les techniques basées sur le contenu avec le FC basé sur la mémoire.
Implémenter séparément le FC basé sur la mémoire et les méthodes basées sur le contenu et combiner les prédictions par la suite en se basant sur une combinaison linéaire des notes prédites. Incorporer certaines caractéristiques issues du contenu dans le cadre du FC basé sur la mémoire. De ce fait, au lieu de calculer les similarités sur la base des items co-notés comme en FC, les similarités entre utilisateurs sont évaluées en se basant sur la corrélation du contenu des items consultés.
Incorporer certaines caractéristiques issues du FC basé sur la mémoire dans le cadre d’une approche basée sur le contenu. Il s’agit de créer par exemple une vue collaborative des profils utilisateurs qui sont représentés par des vecteurs de termes extraits du contenu des items.

Filtrage collaboratif (FC)

La notion de filtrage collaboratif est à la base de la recommandation, les méthodes de filtrage par le contenu étant plutôt liées aux systèmes de recherche d’informations dits personnalisés. Ainsi les systèmes de recommandation basée sur le filtrage collaboratif utilisent les connaissances à propos des autres utilisateurs afin d’effectuer des recommandations. L’hypothèse sous-jacente de ces genres de systèmes est que les utilisateurs similaires aimeront les mêmes objets. Ils exploitent les appréciations des utilisateurs sur les ressources. Contrairement aux systèmes de recommandation basés sur le contenu qui ne se focalisent que sur un usager, les approches collaboratives s’appuient sur tous les usagers du système. Ces appréciations (ou jugements de pertinence) sont représentées d’une manière générale par des notes qui peuvent être attribuées, soit de façon explicite par des utilisateurs du système, soit de façon implicite. Par exemple pour des systèmes du genre, on peut citer Amazon, Netflix, Grouplens .
Les systèmes de recommandation basée sur le filtrage collaboratif peuvent être utilisés dans des domaines où il n’y a pas beaucoup de contenu associé à des éléments, ou lorsque le contenu est difficile à analyser pour un ordinateur, par exemple des idées, des opinions, etc. Le principe consiste à recommander des objets sur la base du comportement passé des utilisateurs similaires. Historiquement , il y a deux classes d’algorithme de filtrage collaboratif : basé sur la mémoire et basé sur un modèle.

Les défis généraux des systèmes de recommandation

L’adoption des systèmes de filtrage est assez importante ou joue un rôle primordial dans l’internet d’aujourd’hui mais le challenge est l’amélioration des pratiques et méthodes utilisées pour rendre les systèmes plus précis, interactifs, adaptés à des contextes particuliers, performants, etc. Malgré le succès des systèmes de recommandation, certains points demeurent encore problématiques, notamment : le manque de données, le démarrage à froid, la diversité, etc. En effet lors de la mise en place d’un système de recommandations, qu’il utilise de l’information implicite ou explicite, celui-ci doit faire face à certains problèmes pratiques s’il veut demeurer efficace dans son utilisation de tous les jours.
Démarrage à froid : Le démarrage à froid (ou Cold Start) se produit lors que le système ne possède pas assez de données d’usage. Dès lors les performances de prédictions sont détériorées. Dans le cas du filtrage collaboratif, il n’existe aujourd’hui aucune solution à ce problème. Il souffre du démarrage à froid du côté des utilisateurs et du côté des items. Il ne peut pas trouver de voisins à un nouvel utilisateur qui n’a pas encore attribué de notes, ou a attribué peu de notes. Il ne peut pas non plus recommander de nouveaux items qui n’ont pas encore été notés par les utilisateurs. Et s’il s’agit de l’approche à base de contenu, elle souffre du démarrage à froid du côté des utilisateurs, mais pas du côté des items, car les nouveaux items peuvent être directement associés à leurs approchants grâce à leurs valeurs d’attributs. Données dispersées : Ce défi, similaire au démarrage à froid, se distingue du fait que le problème n’est pas tant le manque de données causé par un nouvel utilisateur ou un nouveau produit, que la diversité des produits et des préférences des utilisateurs . Ce problème suit le même principe que le problème des grandes dimensionalités, la malédiction de la dimensionnalité.
Par exemple dans le domaine de la recommandation de films, si un utilisateur a des préférences particulières, il ne sera pas évident pour un système utilisant un filtrage collaboratif de trouver d’autres utilisateurs avec des préférences similaires. Aussi, du côté des produits, si très peu d’utilisateurs notent certains films, même avec de très bonnes notes, ceux-ci ne seront recommandés que très rarement . La longue traine : La longue traîne est un phénomène connu des systèmes de recommandation et plus généralement des statistiques. Il concerne tous les objets non populaires ou les nouveaux objets souvent ignorés des systèmes de recommandation collaboratifs. En effet, ces objets étant minoritairement mesurés par les utilisateurs, les algorithmes de filtrage ne les considèrent pas ou très peu. Ce phénomène a tendance à s’accentuer lors de l’évolution du système : certains objets sont de plus en plus à la traîne et il s’avère que la quantité d’objets non populaire est souvent beaucoup plus importante que les objets recommandés. Cette problématique est souvent liée à un manque de données des objets non populaires. Dès lors, nous pourrions imaginer d’acquérir des données externes pour pallier ce manque de connaissance .

Table des matières

Introduction générale 
I ETAT DE L’ART 
1 Les systèmes de recommandation 
1.1 Introduction
1.2 Les avis d’utilisateur
1.2.1 Les avis explicites
1.2.2 Les avis implicites
1.3 Les types d’approches
1.3.1 Approches basées sur le contenu
1.3.1.1 Approche générale
1.3.1.2 Profils de ressources
1.3.1.3 Profils d’utilisateur
1.3.1.4 Les avantages et inconvénients de ces systèmes
1.3.2 Filtrage collaboratif (FC)
1.3.2.1 Filtrage collaboratif basé sur la mémoire
1.3.2.2 Filtrage collaboratif basé sur un modèle
1.3.2.3 Les avantages et inconvénients du filtrage collaboratif
1.3.3 Systèmes hybrides
1.4 Les défis généraux des systèmes de recommandation
1.4.1 Démarrage à froid
1.4.2 Données dispersées
1.4.3 La longue traine
1.5 Conclusion
2 Classement bayésien par pair d’objets 
2.1 Introduction
2.2 Classification par pair d’objets
2.3 Bayesian Personalized Ranking (BPR)
2.4 Conclusion
II CONTRIBUTIONS ET VALIDATIONS 
3 Notre proposition 
3.1 Introduction
3.2 Généralités et objectifs
3.3 Réseaux de neurones artificiels feed-forward
3.3.1 Le biais
3.3.2 Les poids
3.3.3 La matrice d’entrée
3.3.4 Apprentissage par descente de gradient stochastique(SGD)
3.3.4.1 Fonctions d’activation ou de transfert
3.3.4.2 La fonction d’erreur
3.3.4.3 La rétro-propagation de l’erreur
3.3.5 Formalisme du concept de notre approche
3.4 Recommandation
3.5 Conclusion
4 Méthodologies et Résultats 
4.1 Introduction
4.2 Les jeux de données
4.3 Les métriques de validation utilisée
4.3.1 La précision
4.3.2 Le rappel (recall)
4.3.3 La métrique F-mesure
4.3.4 Métrique de classement : le nDCG
4.4 Expérimentations
4.4.1 Environnement de test
4.4.2 Les résultats
4.4.2.1 Précision
4.4.2.2 Recall
4.4.2.3 F-mesure
4.4.2.4 Métrique de classement : NDCG
4.4.2.5 Temps d’exécution
4.5 Conclusion
Conclusion et Perspectives

Télécharger le rapport complet

Télécharger aussi :

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *