thesis

Outils algorithmiques pour la détection des communautés dans les réseaux

Defense date:

Jan. 1, 2012

Edit

Institution:

Nice

Disciplines:

Abstract EN:

This thesis concerns the algorithmic aspects of the communities' detection in large graphs. The work can be used by a telecommunications operator whose graphs are associated to telephone calls and SMS or telecommunication networks. In this context, the detection of communities is used for the content recommendation, the analysis of customer data, the classification of Web pages, the detection of Web spamming, marketing activities and others. This thesis is organized around two major parts. In the first part, we introduce the field of detection of communities. Indeed this problem has been studied with different points of view during the last years. The main methods and applications are presented in this descriptive part. In the second part, we present our contribution to the problema. Our contribution consists of two main topics. First, we introduce a new quality function, the fractional arboricity which is more adapted to the problem of detecting communities in social networks. Then, we present a fast and performance guaranteed algorithm to approximate the optimal fractional arboricity and identifies the communities in question. Second, we study the detection of communities by optimizing the modularity, the most used quality function for communities’ detection. We rewrite this function, and then, find new interpretations of the modularity and also links between the modularity and others cut functions. Finally, we propose two heuristics to approximate the optimization of the modularity. The first is an algorithm that approximates the modularity by using the Fiedler vector of the Laplacian matrix of the graph. The second algorithm is a fast heuristic based on the representation of physical interaction of nodes in a metric space. With this representation, we define an attraction/ repulsion mechanism between the vertices and then we obtain clusters in communities. Finally, we combine the optimization of the fractional arboricity and the optimization of the modularity into one communities’ detection tool.

Abstract FR:

L'aspect algorithmique de la détection des communautés dans les grands graphes est le sujet principal abordé dans ce mémoire. Cette problématique est appliquée dans le contexte d'un opérateur de télécommunications dont les graphes proviennent des échanges téléphoniques ou du réseau de télécommunication. Dans ce contexte, la détection des communautés permet la recommandation de contenu, l'analyse des données clients, le classement des recherches Web, la détection des spamming Web, les actions marketing et autres. Cette thèse s'articule autour de deux grandes parties. Dans un premier temps, nous avons présenté le domaine de la détection des communautés. En effet cette problématique est étudiée sous des angles très variées par des communautés scientifiques différentes. Les principales méthodes et applications sont présentées dans cette première partie descriptive. Dans un second temps, nous avons présenté notre contribution pour répondre à cette problématique. Notre contribution se résume en deux principaux points. Tout d'abord, nous avons présenté une nouvelle fonction de qualité, le facteur d'arbre, plus adaptée à la problématique de détection des communautés dans les réseaux sociaux. Ensuite, nous avons présenté un algorithme rapide et à performance garantie pour approximer le facteur d'arbre optimal et l'identification des communautés. Ensuite, nous avons étudié la détection des communautés par l'optimisation de la modularité qui est la fonction de qualité la plus utilisée dans la littérature. Nous avons réécrit cette fonction, ce qui nous a permis d'avoir d'autres interprétations et de trouver des liens entre la modularité et d'autres fonctions de coupe du graphe. Enfin, nous avons proposé deux heuristiques pour approximer le problème d'optimisation de la modularité. Le premier est un algorithme basé sur l'analyse spectrale qui approxime la modularité en utilisant le vecteur de Fiedler de la matrice Laplacien du graphe. Le second algorithme est une heuristique rapide basée sur la représentation de la modularité dans un espace métrique sous forme de forces s'inspirant de la physique. Cette représentation permet de définir un mécanisme d'interaction attraction/répulsion sur les sommets du graphe et d'obtenir des regroupements en communautés. Pour finir, nous construisons un outil de détection des communautés qui allie l'optimisation du facteur d'arbre et de la modularité.