Contributions à l'apprentissage collaboratif non supervisé
Institution:
Paris 13Disciplines:
Directors:
Abstract EN:
The research outlined in this thesis concerns the development of collaborative clustering approaches based on topological methods, such as self-organizing maps (SOM), generative topographic mappings (GTM) and variational Bayesian GTM (VBGTM). So far, clustering methods performs on a single data set, but recent applications require data sets distributed among several sites. So, communication between the different data sets is necessary, while respecting the privacy of every site, i. E. Sharing data between sites is not allowed. The fundamental concept of collaborative clustering is that the clustering algorithms operate locally on individual data sets, but collaborate by exchanging information about their findings. The strength of collaboration, or confidence, is precised by a parameter called coefficient of collaboration. This thesis proposes to learn it automatically during the collaboration phase. Two data scenarios are treated in this thesis, referred as vertical and horizontal collaboration. The vertical collaboration occurs when data sets contain different objects and same patterns. The horizontal collaboration occurs when they have same objects and described by different Patterns.
Abstract FR:
Le travail de recherche exposé dans cette thèse concerne le développement d'approches de clustering collaboratif à base de méthodes topologiques, telles que les cartes auto-organisatrices(SOM), les cartes topographiques génératives (GTM) et les GTM variationnelles Bayésiennes (VBGTM). Le clustering collaboratif permet de préserver la confidentialité des données en utilisant d'autres résultats de classifications sans avoir recours aux données de ces dernières. Ayant une collection de bases de données distribuées sur plusieurs sites différents, le problème consiste à partitionner chacune de ces bases en considérant les données locales et les classifications distantes des autres bases collaboratrices, sans partage de données entre les différents centres. Le principe fondamental du clustering collaboratif est d'appliquer les algorithmes de clustering localement sur les différents sites, puis collaborer les sites en partageant les résultats obtenus lors de la phase locale. Dans cette thèse nous explorons deux approches pour le clustering collaboratif. L'approche horizontale pour la collaboration des bases de données qui décrivent les mêmes individus mais avec des variables différentes. La deuxième approche collaborative est dite verticale pour la collaboration de plusieurs bases de données contenant les mêmes variables mais avec des populations différentes.