thesis

Services et protocoles pour l'exécution fiable d'applications distribuées dans les grilles de calcul

Defense date:

Jan. 1, 2009

Edit

Institution:

Rennes 1

Disciplines:

Authors:

Directors:

Abstract EN:

A grid gathers a large amount of heterogeneous computing resources, belonging to various administrative domains. Grids are attractive because they can provide users with the amount of computing resources needed to execute scientific applications. However, executing applications in a grid is challenging because the failure rate is high. To execute applications reliably in the grid, we first propose a rollback recovery service in charge of automatically restarting failed applications. Then we propose a framework to provide grid services with high availability and self-healing. Finally, we propose a scalable rollback-recovery protocol for message passing applications.

Abstract FR:

Une grille de calcul regroupe un très grand nombre de ressources de calcul hétérogènes, pouvant appartenir à différents domaines d'administration. Les grille sont attractives car elles peuvent fournir à leurs utilisateurs les ressources nécessaires à l'exécution d'applications de calcul scientifique. Cependant exécuter une application sur la grille est une tâche difficile car la fréquence des défaillances matérielles y est élevés. Pour assurer l'exécution fiable d'applications distribuées dans les grilles de calcul, nous proposons tout d'abord un service de recouvrement arrière assurant le redémarrage automatique des applications défaillantes. Nous proposons ensuite une solution assurant la haute disponibilité et l'auto-réparation de services de grille. Enfin nous proposons un protocole de recouvrement arrière pour application à échange de messages passant à l'échelle.