thesis

Méthodes et algorithmes pour la classification de trafic

Defense date:

Jan. 1, 2011

Edit

Disciplines:

Abstract EN:

Traffic classification consists of associating network flows with the application that generated them. This subject, of crucial importance for both service providers and network managers, has already received substantial attention in the research community. Despite these efforts, a number of issues still remain unsolved. Therefore, this work presents three parts dealing with various aspects of the challenging task of traffic,classfication and its use cases. The first part presents an in-depth study of state-of-the-art statistical classification methods which use passive traces collected in the access network of an ISP offering ADSL access to residential users. We critically evaluate the performance, including the portability aspect, which so far has been overlooked in the community. Portability is defined as the ability of the classifier to perform well on sites (networks) different than it was trained on. The second part aims at providing a remedy for some of the problems uncovered in part one, mainly the ones concerning portability. We propose a self-learning hybrid classification method that enables synergy between a priori heterogeneous sources of information (e. G. Statistical flow features and the presence of a signature). We first extensively evaluate its performance using the data sets from part one. We then report the main findings for tool deployment in an operational ADSL platform, where a hybrid classifier monitored the network for more than half a year. The last part presents a practical use case of traffic classification and focuses on buildind the profile of customers of an ISP at the application level.

Abstract FR:

La classification de trafic consiste à associer un flot à une application. Ce sujet, d'une grande importance pour les fournisseurs d'accès Internet et les services informatique, a déjà reçu beaucoup d'attention de la communauté recherche. Malgré ces efforts, un grand nombre de problèmes demeurent. Ce travail de thèse s'est attaché à apporter des solutions à certains de ces problèmes. La première partie de ce travail présente une étude approfondie des approches statistiques proposées dans la littérature pour la classification pour le cas de trafic collecté sur les plateformes ADSL d'un fournisseur d'accès Internet pour les particuliers. Nous avons jeté un regard critique sur les performances de ces approches en se concentrant sur certains critères de performance clefs, notamment la portabilité, qui avaient été négligés jusqu'à présent. La portabilité (d'un classificateur statistique) est définie ici comme la capacité d'un classificateur statistique à fonctionner sur un site différent de celui sur lequel il a été entrainé. La deuxième partie de la thèse présente une approche pour résoudre certains des problèmes découverts dans la première partie. Nous proposons une technique hybride qui permet d'établir une synergie entre des sources d'information a priori hétérogènes, notamment les caractéristiques statistiques usuelles des flots et la présence de signatures applicatives. Nous présentons ensuite les résultats obtenus à partir du déploiement de cette technique hybride sur une plateforme ADSL opérationnelle, que nous avons observée pendant plus de 6 mois. La dernière partie de la thèse présente une application des techniques de classification pour le profilage au niveau applicatif de clients d'un fournisseur d'accès.