Evaluation des systèmes de recommandation à partir d'historiques de données
Institution:
Paris 6Disciplines:
Directors:
Abstract EN:
Cette thèse présente différents protocoles d'évaluations permettantune meilleure estimation des erreurs de systèmes de recommandationsconstruits à partir d'historiques de données d'utilisateurs (ie sansinteractions directes avec les utilisateurs du système). Dans un premier chapitre de contribution, nous présentons lesrésultats d'une étude de cas d'un système de recommandation uniquementbasé sur les données d'achats d'un magasin de bricolage. Larecommandation est une tâche complexe qui à été souvent assimiléeuniquement à tache de prédiction de notes. Dans cette étude, nouscherchons à prédire les achats qu'un client va effectuer et non lanote qu'il attribuerait à un produit. Les données de notes étantindisponibles pour bon nombre d'industriels, cela correspond à uneapplication fréquemment rencontrée en pratique mais pourtant rarementtraitée dans la littérature. Dans ce cadre, nous évaluons lesperformances de plusieurs algorithmes de filtrage collaboratif del'état de l'art. Nous montrons comment certaines modifications desprotocoles d'apprentissages et de tests, ainsi que l'apportd'information de contexte, aboutit à de fortes variations desperformances entre algorithmes et à une sélection de modèle différente. Dans les chapitres suivants, nous abordons la problématique del'évaluation d'algorithmes de filtrage collaboratif à partir denotes. Dans un deuxième chapitre, nous détaillons notre participationau challenge de recommandation contextuelle de films CAMRa. Cechallenge propose deux modifications du protocole classique deprédiction de notes: les algorithmes sont évalués en considérant desmesures d'ordonnancement et les notes sont échantillonnées en test demanière temporelle sur deux périodes spécifiques de l'année: lasemaine de Noël et de la cérémonie des Oscars. Nous proposons unalgorithme de recommandations personnalisées qui prend en compte lesvariations temporelles de la popularité des items. La dernière contribution de cette thèse étudie l'influence duprocessus d'observations des notes sur les mesures de performancesTopK (rappel/ précision). Les utilisateurs choisissent les itemsqu'ils veulent noter, ainsi les notes sont obtenues par un processusd'observations non aléatoires. D'une part, certains items reçoiventbeaucoup plus de notes que les autres, et d'autre part, les notes"positives" sont sur-observés car les utilisateurs notent plusfréquemment les items qu'ils aiment. Nous proposons une analysethéorique de ces phénomènes et présentons également des résultatsd'expériences effectuées à l'aide de données Yahoo! réunissant desnotes collectées à la fois de manière classique et de manièrealéatoire. Nous montrons notamment qu'une prise en compte des notesmanquantes comme négatives en apprentissage aboutit à de bonnesperformances sur les mesures TopK, mais que ces performances peuventêtre trompeuses en favorisant des algorithmes modélisant la popularitédes items plus que les réelles préférences des utilisateurs.
Abstract FR:
This thesis presents various experimental protocols leading to abetter offline estimation of errors in recommender systems. As a first contribution, results form a case study of a recommendersystem based on purchased data will be presented. Recommending itemsis a complex task that has been mainly studied considering solelyratings data. In this study, we put the stress on predicting thepurchase a customer will make rather than the rating he will assign toan item. While ratings data are not available for many industries andpurchases data widely used, very few studies considered purchasesdata. In that setting, we compare the performances of variouscollaborative filtering models from the litterature. We notably showthat some changes the training and testing phases, and theintroduction of contextual information lead to major changes of therelative perfomances of algorithms. The following contributions will focus on the study of ratings data. Asecond contribution will present our participation to the Challenge onContext-Aware Movie Recommendation. This challenge provides two majorchanges in the standard ratings prediction protocol: models areevaluated conisdering ratings metrics and tested on two specificsperiod of the year: Christmas and Oscars. We provides personnalizedrecommendation modeling the short-term evolution of the popularitiesof movies. Finally, we study the impact of the observation process of ratings onranking evaluation metrics. Users choose the items they want to rateand, as a result, ratings on items are not observed at random. First,some items receive a lot more ratings than others and secondly, highratings are more likely to be oberved than poor ones because usersmainly rate the items they likes. We propose a formal analysis ofthese effects on evaluation metrics and experiments on the Yahoo!Musicdataset, gathering standard and randomly collected ratings. We showthat considering missing ratings as negative during training phaseleads to good performances on the TopK task, but these performancescan be misleading favoring methods modeling the popularities of itemsmore than the real tastes of users.