Contribution en apprentissage topologique non supervisé pour la fouille de données
Institution:
Paris 13Disciplines:
Directors:
Abstract EN:
The research outlined in this thesis concern the development of approaches based on self-organizing maps for the groups-outliers and novelty detection, bi-clustering and confidence intervals estimation. For each problem, an unsupervised learning model is proposed. The first model that we propose in this thesis is dedicated to groups-outliers detection by proposing a new measure nammed GOF (Group Outlier Factor), which is estimated by the unsupervised learning. We integrated it to topological maps learning. Our approach is based on the density of each group of data, and simultaneously provides a data partitioning and a quantitative indicator (GOF) that indicat the "outlier-ness" of each cluster or group. Thereafter, the GOF measure is used as a classifier for novelty detection problem. In fact, we develop an approach based on GOF which automatically detects the new data that were not known during the learning process. The second model developed in this thesis is related to bi-clustering problemtitled BiTM (Bi-clustering using Topological Map). BiTM is based on self-organizing maps and provides a simultaneous clustering of rows and columns of the data matrix in order to increase the homogeneity of bi-clusters by respecting neighborhood relationship and using a single map. BiTM maps provide a new topological visualization of the bi-clusters. The third contribution is addressed to the confidence intervals estimation problem in time series. The Anticipeo company offers a solution that allows to perform detailed forecasts for different customers. In addition to its standard solution, we have developed a complementary tool for confidence intervals estimation and products classification according to their statistical characteristics. In this thesis, we have used different evaluation using performance measure and visualizations. The obtained results are encouraging and promising to continu in this direction.
Abstract FR:
Le travail de recherche exposé dans cette thèse concerne le développement d’approches à base des cartes auto-organisatrices pour les problèmes de détection de groupes-outliers et de nouveautés, de bi-partitionnement, ainsi que l’estimation des intervalles de confiance des prévisions de la société Anticipeo. Pour chaque problématique, un modèle d’apprentissage non supervisé adapté est proposé. La première contribution de cette thèse est dédiée à la détection de groupes-outliers en proposant une nouvelle mesure nommée GOF (GroupOutlier Factor), qui est estimée par l’apprentissage non supervisé. Nous l’avons intégré dans l’apprentissage des cartes topologiques. Notre approche est basée sur la densité relative de chaque groupe de données. Elle fournit simultanément un partitionnement des données et un indicateur quantitatif (GOF) sur “la particularité“ de chaque cluster ou groupe de données. Par la suite, la mesure GOF est utilisée comme classifieur pour la détection de nouveautés. En effet, nous développons une approche s’appuyant sur le GOF qui permet de détecter automatiquement les données nouvelles qui n’étaient pas connues au moment de l’apprentissage. La seconde contribution concerne le problème de bi-partitionnement (bi-clustering). L’approche que nous développons, qui se nomme BiTM (Bi-clustering using Topological Map), permet de représenter simultanément dans une carte topologique les observations et les variables d’une matrice de données. Contrairement à certaines approches de l’état de l’art, BiTM ne nécessite aucune pré-organisation de la matrice de données. Notre approche permet aussi de fournir de nouvelles visualisations. Enfin, la troisième contribution, qui est de caractère applicatif, aborde le problème d’estimation des intervalles de confiance dans les séries chronologiques. La société Anticipeo propose une solution informatique qui permet de réaliser des prévisions détaillées des ventes pour différents clients. En supplément de son offre standard, nous avons développé une offre complémentaire d’estimation d’intervalles de confiance (”marges d’erreur”) et de la classification des produits selon leurs caractéristiques statistiques. Les différentes évaluations réalisées dans cette thèse (mesures de performances et visualisations) ont obtenu des résultats intéressants.