thesis

Approches basées sur les modèles de langue pour la recherche d'opinions

Defense date:

Jan. 1, 2014

Edit

Institution:

Toulouse 3

Disciplines:

Directors:

Abstract EN:

Evolution of the World Wide Web has brought us various forms of data like factual data, product reviews, arguments, discussions, news data, temporal data, blog data etc. The blogs are considered to be the best way for the expression of the one's opinions about something including from a political subject to a product. These opinions become more important when they influence govt. Policies or companies marketing agendas and much more because of their huge presence on the web. Therefore, it becomes equally important to have such information systems that could process this kind of information on the web. In this thesis, we propose approach (es) that distinguish between factual and opinion documents with the purpose of further processing of opinionated information. Most of the current opinion finding approaches, some base themselves on lexicons of subjective terms while others exploit machine learning techniques. Within the framework of this thesis, we are interested in both types of approaches by mitigating some of their limits. Our contribution revolves around three main aspects of opinion mining. First of all we propose a lexical approach for opinion finding task. We exploit various subjective publicly available resources such as IMDB, ROTTEN, CHESLY and MPQA that are considered to be opinionated data collections. The idea is that if a document is similar to these, it is most likely that it is an opinionated document. We seek support of language modeling techniques for this purpose. We model the test document (i. E. The document whose subjectivity is to be evaluated) the source of opinion by language modeling technique and measure the similarity between both models. The higher the score of similarity is, the more the document subjective. Our second contribution of detection of opinion is based on the machine learning. For that purpose, we propose and evaluate various features such as the emotivity, the subjectivity, the addressing, the reflexivity and report results to compare them with current approaches. Our third contribution concerns the polarity of the opinion which determines if a subjective document has a positive or negative opinion on a given topic. We conclude that the polarity of a term can depend on the domain in which it is being used

Abstract FR:

Avec l'évolution du Web, de nombreuses formes de contenu ont été générées par les utilisateurs, y compris les pages personnelles, les discussions et les blogs. Ces derniers sont un moyen facile pour l'expression des avis personnels, le partage des sentiments, ou pour commenter différents sujets. La présence d'information de nature subjective (opinion) apparaît de manière très visible dans les blogs. Ces opinions ont une grande importance dans plusieurs domaines (politique, commercial, ou industriel) d'où la nécessité de les détecter automatiquement. Nos travaux de thèse s'inscrivent dans le contexte de la recherche d'information et s'intéressent plus précisément à l'information de type opinion. Le challenge majeur dans ce cadre est d'arriver à sélectionner des documents qui sont à la fois pertinents à un sujet donné et porteurs d'opinions sur ce sujet. Si la recherche d'information thématique, permet de répondre au critère de pertinence, une des problématiques majeure de cette tâche est de répondre au second critère. En effet outre la question relative à l'identification de documents porteurs d'opinions (nous parlons ainsi de documents subjectifs) ; il faudrait que l'opinion exprimée dans le document porte sur le sujet. Ceci n'est évidemment pas certain car un document peut traiter différents sujets. Parmi les différentes approches existantes dans la détection d'opinion, certaines se basent sur des lexiques de termes subjectifs et d'autres sur l'apprentissage automatique. Dans le cadre de cette thèse nous nous sommes intéressés aux deux types d'approches en palliant certaines de leurs limites. Notre contribution porte sur trois principaux volets. En premier lieu nous proposons une approche lexicale pour la détection d'opinion dans les blogs. Pour ce faire, nous exploitons différentes ressources subjectives, ouvertes, disponibles telles que IMDb, ROTTEN, CHESLY et MPQA qui constituent la source d'opinions. Nous supposons que si un document est similaire à cette source, il est vraisemblablement porteur d'opinions. Pour estimer cette vraisemblance, nous proposons de modéliser le document à tester et la source d'opinion par des modèles de langue et de mesurer la similarité des deux modèles. Plus cette similarité est grande et plus le document est vraisemblablement subjectif. Notre deuxième contribution porte sur la proposition d'une approche de détection d'opinion basée sur l'apprentissage automatique. Pour cela, nous proposons différentes caractéristiques pertinentes telles que l'Émotivité, la Subjectivité, L'Adressage, La Réflexivité permettant de répondre à la tâche en question. Notre troisième contribution concerne la polarité de l'opinion qui consiste à déterminer si un document subjectif a une opinion positive ou négative sur le sujet. De ce fait, nous proposons de prendre en compte un aspect du domaine, permettant de montrer que la polarité d'un terme peut dépendre du domaine dans lequel il est utilisé