thesis

Apprentissage à "grande échelle" : contribution à l'étude d'algorithmes de clustering répartis asynchrones

Defense date:

Jan. 1, 2012

Edit

Institution:

Paris 6

Disciplines:

Authors:

Directors:

Abstract EN:

Les thèmes abordés dans ce manuscrit de thèse sont inspirés de problématiques de recherche rencontrées par la société Lokad, qui sont résumées dans le premier chapitre. Le Chapitre 2 est consacré à l'étude d'une méthode non paramétrique de prévision des quantiles d'une série temporelle. Nous démontrons, en particulier, que la technique proposée converge sous des hypothèses minimales. La suite des travaux porte sur des algorithmes de clustering répartis et asynchrones (DALVQ). Ainsi, le Chapitre 3 propose tout d'abord une description mathématique de ces modèles précédent, et se poursuit ensuite par leur étude théorique. Notamment, nous démontrons l'existence d'un consensus asymptotique et la convergence presque sûre de la procédure vers des points critiques de la distortion. Le chapitre suivant propose des réflexions ainsi que des expériences sur les schémas de parallélisation à mettre en place pour une réalisation effective des algorithmes de type DALVQ. Enfin, le cinquième et dernier chapitre présente une implémentation de ces méthodes sur la plate-forme de Cloud Computing Microsoft Windows Azure. Nous y étudions, entre autres thèmes, l'accélération de la convergence de l'algorithme par l'augmentation de ressources parallèles. Nous le comparons ensuite avec la méthode dite de Lloyd, elle aussi répartie et déployée sur Windows Azure.

Abstract FR:

The subjects addressed in this thesis manuscript are inspired from research problems encountered by the company Lokad, which are summarized in the first chapter. Chapter 2 deals with a nonparametric method for forecasting the quantiles of a real-valued time series. In particular, we establish a consistency result for this technique under minimal assumptions. The remainder of the dissertation is devoted to the analysis of distributed asynchronous clustering algorithms (DALVQ). Chapter 3 first proposes a mathematical description of the models and then offers a theoretical analysis, where the existence of an asymptotical consensus and the almost sure convergence towards critical points of the distortion are proved. In the next chapter, we propose a thorough discussion as well as some experiments on parallelization schemes to be implemented for a practical deployment of DALVQ algorithms. Finally, Chapter 5 contains an effective implementation of DALVQ on the Cloud Computing platform Microsoft Windows Azure. We study, among other topics, the speed ups brought by the algorithm with more parallel computing ressources, and we compare this algorithm with the so-called Lloyd's method, which is also distributed and deployed on Windows Azure.