thesis

Visualisation dans les systèmes informatiques coopératifs

Defense date:

Jan. 1, 2011

Edit

Institution:

Paris 5

Disciplines:

Authors:

Directors:

Abstract EN:

Clustering techniques and visualization tools of complex data are two recurring themes in the community of Mining and Knowledge Management. At the intersection of these two themes there are the visualization methods such as multidimensional scaling or the Self-Organizing Maps (SOM). The SOM is constructed using K-means algorithm to which is added the notion of neighborhood allowing in this way the preservation of the topo-logy of the data. Thus, the learning moves closer, in the space of data, the centers that are neighbors on a two dimensions grid generally, to form a discrete surface which is a representation of the distribution of the cloud to explore. In this thesis, we are interested in the visualization in a cooperative context, where co-operation is established via an asynchronous communication and the media is the e-mail. This tool has emerged with the advent of information technology and communication. It is widely used in organizations, it allows an immediate and fast distribution of the in-formation to several persons at the same time, without worrying about their presence. Our objective consisted in proposing a tool of visual exploration of textual data which are files attached to the electronic messages. In order to do this, we combined clustering and visualization methods. We investigated the mixture approach, which is a very useful contribution for classification. In our context, we used the multinomial mixture model (Go-vaert and Nadif, 2007) to determine the classes of files. In addition, we studied the aspect of visualization of the obtained classes and documents using the multidimensional scaling and DC (Difference of Convex functions) and Self-Organizing Maps of Kohonen.

Abstract FR:

Les techniques de classification non supervisée et les outils de visualisation de données complexes sont deux thèmes récurrents dans la communauté d’Extraction et Gestion des Connaissances. A l’intersection de ces deux thèmes se trouvent les méthodes de visualisation tels que le MultiDimensional Scaling ou encore la méthode des cartes auto-organisatrices de Kohonen appelée SOM. La méthode SOM se construit à l’aide d’un algorithme des K-means auquel est ajouté la notion de voisinage permettant de cette façon la conservation de la topologie des données. Ainsi, l’apprentissage rapproche, dans l’espace des données, les centres qui sont voisins sur une grille généralement 2D, jusqu’à former une surface discrète qui est une représentation squelettique de la distribution du nuage à explorer. Dans cette thèse, nous nous sommes intéressés à la visualisation dans un contexte coopératif, où la coopération s'etablit via une communication asynchrone dont le média est la messagerie électronique. Cet outil est apparu avec l’avènement des technologies de l’information et de la communication. Il est très utilisé dans les organisations, il permet une diffusion instantanée et rapide de l’information à plusieurs personnes en même temps,sans se préoccuper de leur présence. Notre objectif consistait en la proposition d’un outil d’exploration visuelle de données textuelles qui sont les fichiers attachés aux messages électroniques. Pour ce faire, nous avons combiné des méthodes de classification automatique et de visualisation. Nous avons étudié l’approche modèle de mélange qui est une contribution très utile pour la classification. Dans notre contexte, nous avons utilisé le modèle de mélange multinomial (Govaert et Nadif, 2007) pour déterminer les classes de fichiers. D’autre part, nous avons étudié l’aspect de visualisation à la fois des classes et des documents à l’aide du positionnement multidimensionnel et DC (Difference of Convex functions) et des cartes auto-organisatrices de Kohonen.