thesis

Analyse à granularité fine de la subjectivité

Defense date:

Jan. 1, 2011

Edit

Institution:

Nantes

Disciplines:

Abstract EN:

With the rise of the social web, users are more likely to affirm and share their opinions. Given the magnitude of the phenomenon, opinions express on the Internet are critical data that must be followed in real time and categorised cleverly. Our approach leads us to refocus the term of opinion in the linguistic theories of subjectivity and appraisal. We are interested in detecting subjective phrases in texts and in categorizing various semantic and enunciative aspects : do they express a logical or an axiological evaluation ? what is their polarity ? does the speaker try to conceal his subjectivity ? what is the target object ? Our first contribution is the distribution of two resources : the Blogoscopy corpus contains about 5900 evaluations and 6900 annotated objects. It is the first francophone corpus of this type. The evaluation lexicon contains 4000 French words or expressions. Each lexical entry is structured grammatically and semantically. From these resources, we experiment several methods to address three issues related to subjectivity analysis. The first method combines lexical, grammatical and semantic features to delineate and to disambiguate evaluative phrases in texts. We rely on semantic and morphological assumptions to learn evaluative vocabulary usually missing from resources. Finally, we propose a new method based on the salience of an object to identify the evaluated target.

Abstract FR:

Avec l’essor du web social, les internautes sont davantage enclins à partager et affirmer leurs opinions. Devant l’ampleur du phénomène, les opinions exprimées sur internet sont devenues des données stratégiques qu’il faut pouvoir suivre en temps réel et caractériser finement. Notre démarche nous amène à recadrer le terme d’opinion dans les théories linguistiques sur la subjectivité et l’évaluation. Nous nous intéressons à délimiter automatiquement les passages subjectifs d’un texte et à en catégoriser plusieurs aspects sémantiques et énonciatifs : ont-ils une modalité logique ou axiologique ? quelle est leur polarité ? le locuteur dissimule t-il sa subjectivité ? quel est l’objet ciblé ? Notre première contribution pour aborder ces questions consiste en la distribution de deux ressources : le corpus Blogoscopie contient 5 900 passages évaluatifs et 6 900 objets annotés. Il est le premier corpus francophone de ce type ; le lexique de l’évaluation représente 4 000 mots ou expressions évaluatifs du français structurés gramaticalement et sémantiquement. À partir de ces ressources, nous proposons des méthodes pour résoudre trois problématiques liées à l’analyse de la subjectivité. La première méthode combine des caractéristiques lexicales, grammaticales et sémantiques pour délimiter et désambiguïser les évaluations d’un texte. Puis, nous évaluons deux méthodes s’appuyant sur des hypothèses sémantiques et morphologiques pour apprendre du vocabulaire évaluatif habituellement absent des ressources existantes. Enfin, nous expérimentons une nouvelle méthode, fondée sur la saillance d’un objet, améliorant l’existant sur la tâche d’identification de la cible d’une évaluation.