Estimation de modèles de mélange probabilistes : une proposition pour un fonctionnement réparti et décentralisé
Institution:
NantesDisciplines:
Directors:
Abstract EN:
This thesis deals with the distributed statistical estimation, with its motivation from, and application to, multimedia content-based indexing. Algorithms and data from various contributors would cooperate towards a collective statistical learning. The contribution is a scheme for estimating a multivariate probability density, in the case where this density takes the form of a Gaussian mixture model. In this setting, aggregation of probabilistic Gaussian mixture models of the same class, but estimated on several nodes on different data sets, is a typical need, which we address in this thesis. The proposed approaches for fusion only requires moderate computation at each node and little data to transit between nodes. Both properties are obtained by aggregating models via their (few) parameters, rather than via multimedia data itself. In the first approach, assuming independently estimated mixtures, we propagate their parameters in a decentralized fashion (gossip) in a network, and aggregate GMMs from connected nodes, to improve estimation. Mixture models are in fact concatenated, then reduced to a suitable number of Gaussian components. A modification on Kullback divergence leads to an iterative scheme for estimating this aggregated model. As an improvement through a change of principle over the first work, aggregation is achieved through Bayesian modeling of the GMM component grouping problem and solved using a variational Bayes technique, applied at component level. This determines, through a single, low-cost yet accurate process, assignments of components that should be aggregated and the number of components in the mixture after aggregation. Because only model parameters are exchanged on the network, computational and network load remain very moderate
Abstract FR:
Cette thèse traite de l'estimation statistique distribué, avec sa motivation à partir, et l'application aux indexation multimédia par le contenu. Des Algorithmes et des données de divers contributeurs coopéreront vers d'un apprentissage statistique collectif. La contribution est un système d'estimation de densité de probabilité multivariée, dans le cas où cette densité prend la forme d'un modèle mélange de gaussien. Dans ce cadre, l'agrégation des modèles probabilistes de mélanges gaussiens la même catégorie, mais estimé à plusieurs noeuds sur différents ensembles de données, est une nécessité typique dont nous adressons dans cette thèse. Les approches proposées pour la fusion de mélanges gaussiens exigent seulement du calcul modéré à chaque noeud et peu de données de transit entre les noeuds. Les deux propriétés sont obtenues en agrégeant des modèles via leurs (peu) paramètres plutôt que par des données multimédia. Dans la première approche, en supposant estimés indépendamment des mélanges, nous propageons leurs paramètres de façon décentralisée (gossip), dans un réseau, et d'agréger les GMMs à partir des noeuds reliés pour améliorer l'estimation. Des modèles de mélange ont en fait concaténés puis réduits à un nombre approprié de composants gaussiens. Une modification de la divergence de Kullback conduit à un processus itératif d'estimation de ce modèle agrégé. Comme une amélioration par un changement de principe au cours du premier travail, l'agrégation est réalisée par la modélisation bayésienne du problème de groupement composant de GMM et résolue en utilisant une méthode variationnelle de Bayes, appliquée au niveau composant. Cela permet de déterminer, par un processus simple, à faible coût pourtant précis, des attributions des composants qui devraient être agrégés et le nombre de composants dans le mélange après l'agrégation. Comme seulement les paramètres du modèle sont échangés sur le réseau, de calcul et de la charge du réseau restent très modérées