thesis

Classification de sentiments sur le Web2. 0

Defense date:

Jan. 1, 2013

Edit

Institution:

Paris 6

Disciplines:

Directors:

Abstract EN:

Internet est une source d’informations au quotidien, l’avènement du web participatif dans les années 2000, souvent appelé web2. 0, a fait d’Internet un support d’échange et de débat pour tout un chacun. Le dynamisme de ces nouveaux modes d’expression engendreune masse considérable d’informations, provoquant une surcharge pour l’utilisateumoyen "On dirait que le trop-plein d’informations finit par produire un sentiment de vide. " Jean-Pierre April. Nous avons donc besoin d’outils de filtrage et d’analyseautomatique pour faciliter l’accès des utilisateurs aux masses de données. Dans ce contexte général, nous nous sommes focalisés sur l’étude des systèmes d’analyse desentiments et en particulier sur les algorithmes de classification. Les algorithmes classiques de catégorisation des données textuelles (SVM, NB,PLSA, LDA,. . . ) montrent plusieurs limitations pour l’analyse des sentiments. En analyse de sentiment il est nécessaire de décrire la structure des phrases pour comprendre le message exprimé. Cependant, l’analyse détaillée des textes engendre naturellement des difficultés computationnelles qui compliquent le passage à l’échelle des approches. Nous avons travaillé dans plusieurs directions pour concilier ces objectifs antagonistes. Dans un premier temps, nous nous sommes focalisés sur l’adaptation desmécanismes de régularisation et de sélection de caractéristiques pour la classificationde sentiments. Nous avons ensuite étudié une approche orthogonale : en partant d’unclassifieur simple, nous avons simplement augmenté la taille des ensembles d’apprentissage en jouant sur la disponibilité quasi-infinie des données étiquetées du web2. 0

Abstract FR:

Internet becomes an essential media in everyday life : we use it to check thenews, to do our shopping, to shape our opinion, to share our feelings and experiencefeedbacks. This process generates a large amount of data on our personalities andlifestyles. With this amount of information we are quickly disarmed. "Looks like theoverload of information gives a sense of emptiness. " French quotation by Jean-PierreApril. Thus, some automated filtering and analyzing tools are required to make theinformation accessible to everybody. In this general context, our works focuses onsentiment analysis and on sentiment classification in particular. Classical algorithms for text categorization like SVM, NB, PLSA or LDA showseveral limitations for sentiment analysis. These limitations are related to the par-ticularity of the task : sentiment classification requires to take into account thestructure of the text (including negations for instance), the lexical field modeling isnot sufficient to understand the user messages. However, considering the text struc-ture requires some complex representations and/or algorithms that can hardly scaleup. We investigated many solutions to tackle those antagonist objectives simulta-neously. First we focused on regularized formulations adapted to sentiment classifi-cation to perform an efficient feature selection in N-grams space. Then, we exploredan orthogonal research axis : given a basic classifier, we simply increased the lear-ning set sizes using the web2. 0 as an infinite source of labeled data. Finally, we triedto combine the advantages from both solutions using an original neural network architecture.