Fouille de données sans information a priori sur la structure de la connaissance : application à l’analyse de journaux d’alarmes réseau
Institution:
Rennes 1Disciplines:
Directors:
Abstract EN:
The aim of this thesis is to propose a data mining framework for discovering knowledge when the user has no a priori information about the knowledge structure. The proposed framework is generic and based on the category theory, more precisely on the sketches. We propose the concept of relational sketches that enhances the sketches with the concepts of power set and relation. This framework enables the specification of various data types and various data mining algorithms. The execution of data mining algorithms for model extraction is enabled by the unification of algorithm specifiations with the data specification. A generic methodology, based on the Kolmogorov complexity, is proposed to evaluate the model quality and their ability to summarize the data. The evaluation essentially relies on the covering relation that links the model and data. The application which motivated this work is an analysis of network alarm logs from France Télécom. The first application focuses on the summarization of unstructured VPN alarms. The second application concerns the analysis of network flows from the internet "backbone" to detect DDoS attacks.
Abstract FR:
Les travaux de recherche présentés dans cette thèse ont pour objectif de proposer un cadre à la fouille de données pour la découverte de connaissances lorsque l'on n'a pas d'information a priori sur la structure des connaissances Nous proposons le concept de d’esquisses relationnelles qui enrichit les esquisses issues de la théorie des catégories. Ce cadre permet de spécifier des données de natures diverses et des opérateurs de fouille de données variés. L'exécution des opérateurs de fouille de données pour extraire des modèles est rendue possible grâce à l'unification de la spécification des opérateurs avec la spécification des données. Une méthode générique, basée sur la complexité de Kolmogorov, évalue la qualité des modèles à résumer les données. Elle s'appuie notamment sur la relation de couverture qui lie les modèles aux données. L'application ayant motivé ces travaux est l'analyse de journaux d'alarmes réseau de France-Télécom. La première application porte sur le résumé d'alarmes VPN non structurées. La seconde application concerne l'analyse des flux réseau importants pour la détection d'attaques DDoS.