thesis

Fiabilité et traitement de la volatilité dans les systèmes de calcul global

Defense date:

Jan. 1, 2006

Edit

Institution:

Paris 11

Disciplines:

Directors:

Abstract EN:

The distributed computing systems gather more and more processors and are thus subjected to higher failure frequencies. The message passing applications are now generally written using the MPI interface. Numbers of automatic and transparent fault tolerant protocols for message passing libraries have been proposed and implemented. All these protocols rely on checkpoint/restart mechanisms, coordinated or not. However, no comparison of these protocols have been presented yet, in term of cost on the initial performance of MPI applications. We expose in this paper the first comparison between the different kind of fault tolerant protocols. The first part describes in a common model five protocols: a distant pessimistic message logging protocol, a sender based pessimistic message logging protocol, a causal message logging protocol, a non blocking coordinated checkpoint protocol and finally a blocking coordinated checkpoint protocol. The second part of this thesis presents the implementation of the fourth first protocols in the MPICH library and the fifth protocol in the MPICH2 library. Then we sum up the experiment results we obtained for the pessimistic protocols implementation and detail the performance measurements of the causal implementation and the coordinated checkpoint implementations, using micro benchmarks and NAS applications on different computing systems.

Abstract FR:

Les systèmes de calcul agrègent de plus en plus de processeurs et sont par conséquent plus fréquemment affectés par des pannes franches. Les applications de calcul à passage de messages sont en grande partie développées selon la norme MPI. De nombreux travaux sur la tolérance aux pannes automatique et transparente pour les applications ont été menés au sein des librairies MPI. Tous ces travaux sont basés sur des techniques de points de reprise, coordonnés ou non coordonnés. Néanmoins aucune comparaison entre les différents protocoles n'a été réalisée en terme de coût et d'impact sur les performances des applications. Nous proposons dans cette étude la première comparaison entre ces différents protocoles. Dans un premier temps, nous décrivons dans un modèle commun un protocole à enregistrement de message pessimiste distant, un protocole à enregistrement de messages pessimiste sur l'émetteur, un protocole à enregistrement de messages causal ainsi que deux protocoles à points de reprise coordonnés : un protocole non bloquant et un protocole bloquant. La deuxième partie de cette thèse décrit les implémentations des quatre premiers protocoles dans la librairie MPICH et l'implémentation du dernier protocole dans la librairie MPICH2. Nous résumons les résultats des expériences menées sur les protocoles à enregistrement de messages pessimistes puis nous exposons en détail les résultats des mesures de performances réalisées sur les implémentations des protocoles causal et à points de reprise coordonnés à l'aide de micro benchmarks et d'applications numériques, pour différentes plateformes de calcul.