thesis

Product Reputation Evaluation based on Multiple Web Sources

Defense date:

Jan. 20, 2017

Edit

Institution:

Lyon

Disciplines:

Authors:

Directors:

Abstract EN:

The extraction of unstructured data from the Web and to analyzing them in order to determine useful information which can be used by customers and manufacturers to make decisions about product is a challengeable task. There are some existing techniques to evaluate products based on the ratings and product reviews posted on the Web. However, all these techniques have some inherent issues and limitations and therefore not able to fulfill the needs and requirements of both customer and manufacturer. For instance, the existing sentiment analysis methods (which classify the opinions in customer reviewsabout a product as positive or negative) are not able to determine the context of word in a sentence accurately. In addition, negation handling methods adopted while determining the sentiment are not able to deal with all types of negations and they also do not consider all exceptions where negations behave differently. Similarly, the existing product reputation models are based on single source, not robust to false and biased ratings, not able to reflect the recent opinions, do not allow users to evaluate product on different criteria, and also do not provide a good estimation accuracy. On the other hand, the existingproduct reputation systems are centralized which has issues such as single point of failure, easy to falsify evaluation information and not suitable approach to solve a complex problem. This thesis proposes methods and techniques for evaluating product reputation based on data available on the Web and to provide valuable information to customers and manufacturers for decision making. These methods perform the following tasks: 1) extract product evaluation data from multiple Web sources 2) analyze product reviews in order to determine that whether opinions about product features in customer reviews are positive or negative, 3) computes different product reputation values while considering different evaluation criteria, and 4) finally the results are provided to customers and manufacturers in order to make decisions. This thesis contributes in three main research areas i.e. 1) feature level sentiment analysis, 2) product reputation model and 3) multiagent architecture. First, a word sense disambiguation and negation handling methods are proposed in order to improve the performance of feature level sentiment analysis. Second, a novel mathematical model is proposed which computes several reputation values in order to evaluate product based on different criteria. Finally, multiagent architecture for review analysis and product evaluation is proposed. Huge amount of the product evaluation data on the Web is in textual form (i.e. product reviews). In order to analyze product reviews to evaluate product we propose a feature level sentiment analysis method which determines the opinions about different features of a product. A word sense disambiguation method is introduced which identify the sense of words according to the context while determining the polarity. Inaddition, a negation handling method is proposed which determine the sequence of words affected by different types of negations. The results show that both word sense disambiguation and negation handling methods improve the overall accuracy of feature level sentiment analysis. A multi-source product reputation model is proposed where informative, robust and strategy proof aggregation methods are introduced to compute different reputation values. Sources from which reviews are extracted may not be creditable hence a source credibility measuring method is proposed in order to avoid malicious web sources. In addition, suitable decay principles for product reputation are also introduced in order to reflect the newest opinions about product quickly. The model also considers several parameters such as reviewer expertise, rating trustworthiness, time span of ratings, reviewer age, sex and location in order to evaluate product in different ways......

Abstract FR:

Internet est une immense source de données non structurées dont l'extraction et l'analyse devient un enjeu majeur. Ces informations peuvent être plus qu'utiles à des consommateurs et des fabricants dans leur processus de prise de décision quant à un produit. Dans ce contexte, l'exploitation de telles information se révèle être une tâche très difficile. De nombreuses méthodes d'évaluation de produits existent à l'heure actuelle, utilisant principalement les notes et les commentaires disponibles sur Internet. Cependant, ces méthodes rencontrent vite des limites et ne sont donc pas en mesure de répondre aux besoins et aux exigences des clients ou des fabricants. Par exemple, les méthodes existantes d'analyse de sentiments, qui classent les opinions des clients sur un produit à l’aide de leur polarité, ne sont pas en mesure de déterminer le contexte du mot dans une phrase avec précision, ce qui biaise fortement leurs résultats. De plus, les méthodes de traitement des négations utilisées, qui déterminent les sentiments exprimées par les clients dans leur commentaires, ne sont pas en mesure de traiter tous les types de négation, ne considèrent pas non plus toutes les exceptions où les négations se comportent différemment. De même, les modèles existants d'estimation de réputation de produits sont basés sur une source unique, et donc peu robuste aux fausses évaluations ou aux évaluations biaisées, ne sont pas en mesure de refléter les opinions récentes. Ils ne permettent pas aux utilisateurs d'évaluer le produit au regard de critères spécifiques, et ainsi ne fournissent pas une estimation précise. D'autre part, les systèmes de réputation évaluant des produits fonctionnent de manière centralisée, entraînant des problèmes de robustesse et des facilités de manipulation, voire de falsification, d'informations, ces approches ne convenant pas à résoudre un problème aussi complexe. Cette thèse propose des modèles et des méthodes d'évaluation de la réputation dédiées aux produits, fonctionnant à partir des données disponibles sur Internet, et visant à fournir des informations précises aux consommateurs et aux fabricants, les appuyant dans leur prise de décision. Ces méthodes concernent i) l'extraction des données d'évaluation des produits à partir de plusieurs sources; ii) une analyse sémantique des évaluations des clients pour déterminer si les opinions exprimées sur chacune des caractéristiques d'un produit sont positives ou négatives; iii) le calcul des différentes valeurs de réputation d'un produit, tout en considérant différents critères d'évaluation, et iv) enfin, le retour des résultats aux consommateurs ou aux fabricants afin de les aider dans leur prise de décisions. Cette thèse contribue à trois principaux domaines de recherche à savoir i) l'analyse des sentiments exprimées quant aux caractéristiques d'un produit, comprenant une méthode de désambiguïsation du sens des mots ainsi qu'une prise en compte plus fine des négations pour améliorer la performance de l'analyse de sentiments selon différents niveaux; ii) les modèles d'évaluation de la réputation d'un produit, basé sur un modèlemathématique calculant plusieurs valeurs de réputation pour une évaluation d'un produit selon différents critères et enfin iii) une architecture multi-agents robuste, facilitant le déploiement et la parallélisation des tâches. Sur Internet, la plupart des opinions sur des produits sont de nature textuelle, comme par exemple les avis des consommateurs. Afin d'analyser de tels commentaires, une méthode d'analyse de sentiments exprimés ciblant spécifiquement les caractéristiques d'un produit a été développée. Une méthode de désambiguïsation identifiant le sens des mots selon leur contexte tout en déterminant leur polarité a enrichi le processus, qui fût complété par une méthode d'analyse fine des négations, déterminant les séquences de mots affectées par chaque type de négation.....