Localisation de masse et espaces de Wasserstein
Institution:
Toulouse 3Disciplines:
Directors:
Abstract EN:
The study of this manuscript is based on two disctincts tools : the packing and the Wasserstein spaces. A first part focuses on the measure localization of a probability Mu. For a regular Mu, the level sets of its density are a good notion to localize where measure is dense, but loose its meaning for a finitely supported measure such as the empirical measure. We thus define a function Tau , called size function, on the closed sets, based on the packing of the sets. The sets of smallest Tau -size with a given probability 1 − alpha localize dense areas, even if Mu is not regular. We show that these smallest sets given Mu and alpha depend continuously on Mu and alpha, for the Hausdorff distance. We derive a new method to quantize Mu in a robust and stable way. A second part focuses on the Wasserstein distance between a probability measure and the associated empirical measure. We obtain a non asymptotic upper bound of the expectation of this distance, for any arbitrary underlying metric space. An application of the result to finite dimensional spaces shows the accuracy of the bound. We also obtain new bounds for the case of Gaussian measure on Banach spaces that coincide asymptotically with the best quantizers possible. Using concentration inequalities, we show deviation bounds. Finally, we use these results to define non asymptotic and non parametric statistical tests of goodness of fit to a family of probability measures. A third part focuses on the barycenter of a finite family of probability measures. The Fréchet mean is an extension to the notion of barycenter to metric spaces, and gives us a way to define barycenter on Wasserstein spaces. We show the existence of these barycenters and then study properties of continuity on the family of measures. We then discuss practical applications in agreagation of empirical measures and texture mixing.
Abstract FR:
Le travail de cette thèse est basé sur deux outils : le packing d'un ensemble et les espaces de Wasserstein. Une première partie s'intéresse à la localisation de la masse d'une mesure de probabilité Mu. Lorsque Mu est régulière, les ensembles de niveau de sa densité fournissent une bonne notion pour localiser les zones "denses" de masse, mais perdent leur sens pour les mesures à support fini, comme dans le cas de la mesure empirique. Nous définissons alors une fonction Tau dite de taille, sur les fermés d'un espace métrique, basée sur leur packing. Les ensembles de plus petite Tau-taille ayant une masse 1 − alpha donnée permettent de localiser les zones denses de Mu, même dans les cas irréguliers. Nous montrons que les ensembles de plus petite Tau-taille pour Mu et alpha fixés dépendent continuement de Mu et de alpha, pour la distance de Hausdorff. Nous en tirons une nouvelle méthode de quantification de Mu, robuste et stable. Une seconde partie s'intéresse à la distance de Wasserstein entre une probabilité mu et la mesure empirique associée. Nous obtenons une majoration non asymptotique de l'espérance de cette distance, dans la cadre d'un espace métrique quelconque. Une particularisation aux espaces de dimension finie permet de mettre en valeur la précision de cette majoration. Nous obtenons aussi dans le cas des mesures gaussiennes sur les espaces de Banach, de nouvelles majorations qui coïncident asymptotiquement avec celles des meilleurs quantifieurs possibles. À l'aide d'inégalités de concentration, nous établissons des bornes de déviations. Enfin, nous utilisons ces résultats pour définir des tests statistiques non asymptotiques et non paramétriques d'adéquation à une famille de lois. Une troisième partie s'intéresse au barycentre d'une famille finie de mesures de probabilité. La moyenne de Fréchet fournit une extension de la notion de barycentre aux espaces métriques, nous permettant de le définir sur les espaces de Wasserstein. Nous montrons son existence, puis, en étudions les propriétés de continuité en les mesures de probabilité. Nous discutons enfin de l'application pratique de ces résultats en agrégation de mesures empiriques et en mélange d'images.