thesis

XtremWeb : une plate-forme générique pour l'étude expérimentale du calcul global et pair-à-pair

Defense date:

Jan. 1, 2003

Edit

Institution:

Paris 11

Disciplines:

Authors:

Directors:

Abstract EN:

Defined as a merge between Global Computing systems (SETI@Home, distributed. Net) and Peer-to-Peer applications (Napster, Gnuttella), Peer-to-Peer Global Computing, gathers idle computing resources, spread over Internet or LAN to execute massively parallel applications. In this model, every resource is able to compute or to request a computation from the other participants. XtremWeb is a generic, secured, fault-tolerant environment to execute parallel applications on volatile nodes. The project aims at providing a high-performance computing environment for production use and providing a soft-ware platform for research and experimentation. The thesis presents a state of the art of large scale distributed systems, the fundamental principles, architecture, realization and performances evaluation of XtremWeb. Architecture is based on three components : Worker which controls the computing node, Client which submits applications and Dispatcher which distributes executions on computing no des and insures fault tolerance of workers and clients. With this platform we made two specific studies relative to security of computing nodes and execution of parallel applications (MPICH-V). MPICH-V is an implementation of the MPICH library tolerant to the nodes volatility based on uncoordinated checkpoint and pessimistic log of the messages. XtremWeb is used by several scientific collaborators through ACI, RNTL projects and by industrial partners in a production environment. A Desk-top Grid based on XtremWeb is currently deployed within the University Paris-Sud Campus.

Abstract FR:

Héritier des systèmes de calcul global (SETI@Home, distributed. Net) et des applications pair à pair (Napster, Gnuttella), le calcul global pair à pair propose l'exploitation massive des ressources vacantes au sein des réseaux et sur Internet pour l'exécution d'applications parallèles. Dans ce modèle, chaque ressource est potentiellement mise à disposition pour l'ensemble des participants. L'environnement XtremWeb est une plate-forme généraliste, sécurisée et tolérante aux défaillances pour l'exécution d'applications parallèles. Le projet poursuit deux objectifs: un environnement de calcul haute-performance, pour la production, à destination des institutions académiques ou industrielles et une plate-forme logicielle d'expérimentation et de recherche. La thèse présente un état de l'art des systèmes distribués à grande échelle, les principes fondamentaux, l'architecture, la réalisation et une évaluation de performance d'XtremWeb. L'architecture s'articule autour de trois composants : le worker qui contrôle la ressource de calcul, le client qui soumet les applications et le coordinateur qui répartit les exécutions sur les noeuds du système et assure la tolérance à la volatilité des workers et des clients. Cette plate-forme a permis de mener à bien deux études plus spécifiques sur la sécurité des ressources ainsi que l'exécution d'applications parallèles communicantes à travers MPICH-V. MPICH- V est une implémentation de la librairie MPICH tolérante à la volatilité des noeuds de calcul fondée sur un checkpoint non coordonné et le log pessimiste des messages. XtremWeb est actuellement utilisé par plusieurs collaborateurs scientifiques à travers des projets ACI, RNTL, actions spécifiques et industriels en environnement de production. Une grille de PC basée sur XtremWeb est en cours de déploiement sur le campus d'Orsay.