thesis

Estimation robuste des modèles de mélange sur des données distribuées

Defense date:

Jan. 1, 2012

Edit

Institution:

Nantes

Disciplines:

Authors:

Abstract EN:

This work proposes a contribution aiming at probabilistic model estimation, in the setting of distributed, decentralized, data-sharing computer systems. Such systems are developing over the internet, and also exist as sensor networks, for instance. Our general goal consists in estimating a probability distribution over a data set which is distributed into subsets located on the nodes of a distributed system. More precisely, we are at estimating the global distribution by aggregating local distributions, estimated on these local subsets. Our proposal exploits the following assumption: all distributions are modelled as a Gaussian mixture. Our contribution is a solution that is both decentralized and statistically robust to outlier local Gaussian mixture models. The proposed process only requires mixture parameters, rather than original data.

Abstract FR:

Cette thèse propose une contribution en matière d’analyse de données, dans la perspective de systèmes informatiques distribués non-centralisés, pour le partage de données numériques. De tels systèmes se développent en particulier sur internet, possiblement à large échelle, mais aussi, par exemple, par des réseaux de capteurs. Notre objectif général est d’estimer la distribution de probabilité d’un jeu de données distribuées, à partir d’estimations locales de cette distribution, calculées sur des sousjeux de données locaux. En d’autres termes, il s’est agi de proposer une technique pour agréger des estimés locaux pour en faire un estimé global. Notre proposition s’appuie sur la forme particulière que doivent prendre toutes les distributions de probabilité manipulées : elles doivent se formuler comme un mélange de lois gaussiennes multivariées. Notre contribution est une solution à la fois décentralisée et statistiquement robuste aux modèles locaux aberrants, pour mener à bien l’agrégation globale, à partir d’agrégations locales de mélanges de lois gaussiennes. Ces agrégations locales ne requièrent un accès qu’aux seuls paramètres des modèles de mélanges, et non aux données originales.