thesis

Fouille exploratoire de messages publiés sur Twitter pour l’aide à la décision

Defense date:

Jan. 1, 2015

Edit

Institution:

Nantes

Disciplines:

Authors:

Abstract EN:

Since its launch in 2006, Twitter’s popularity grows bigger and bigger and the miccroblogging service has now become a major platform of information diffusion. Twitter has reach a massive popularity and this new communication tool is now part of all decision making strategies in customer relationship management systems. If the understanding of natural language is, for a long time, at the core of industrial needs, Twitter’s data brings new constraints making classical approaches obsoletes. These informal texts are shorts, they contain many innovative spellings and deal with various subject matter evolving on a daily basis. In this thesis, we use the paradigm of visual analytics in order to evaluate different approaches in collaboration with a domain expert. The application of methods, dealing with both documents and individual terms, shows that an intermediate level of abstraction is needed to model the evolution of informative knowledge in a context of concept drift. To do so, we propose a methodology taking advantage of the latent semantic extracted by topic models to analyze text streams. Indeed, these probabilistic models extract topics at various granularity levels and can be combined to model their temporal evolution. Our methodology, which both extract topics and provide an interactive visualization of their evolution, is particularly well suited in the fast evolving domain of topic modeling since it is able to easily integrate new models bringing additional knowledge.

Abstract FR:

Depuis son lancement en 2006, Twitter n’a cessé de gagner en popularité et s’est maintenant installé dans une position d’acteur incontournable de la diffusion d’information. Son utilisation s’est démocratisée et ce nouveau canal de communication fait maintenant partie intégrante des stratégies décisionnelles de la gestion de la relation client. Si la compréhension du langage naturel est depuis longtemps au coeur des enjeux industriels, les données issues de Twitter introduisent de nouvelles contraintes qui invalident les approches classiques. Ces textes informels sont courts, contiennent de nombreuses innovations linguistiques et traitent de sujets variés qui s’enchaînent à un rythme journalier. Dans cette thèse, nous nous sommes placés dans un contexte de fouille exploratoire permettant, en collaboration étroite avec un expert de l’entreprise, d’évaluer plusieurs approches sans a priori sur les données. L’application de méthodes, traitant aussi bien les documents dans leur ensemble que les termes individuellement, a montré la nécessité de se placer à un niveau de granularité intermédiaire afin de construire des connaissances suivies dans ce contexte de forte nouveauté. Pour ce faire, nous proposons une approche adaptant la capacité d’abstraction des modèles de thèmes ("Topic Models") aux flux de textes dynamiques. En effet, ces modèles probabilistes permettent de modéliser des thématiques à différents niveaux de granularité et peuvent être combinés afin de suivre leurs évolutions temporelles. Notre méthodologie, qui en sus de la phase d’extraction des thèmes s’appuie sur une restitution visuelle interactive de l’évolution temporelle de leurs relations fait tout particulièrement sens dans le domaine très actif de la modélisation de thématiques puisqu’elle permet d’intégrer facilement de nouveaux modèles apportant des connaissances supplémentaires.