Stockage fiable des données dans les grilles, application au stockage des images de checkpoint
Institution:
Paris 11Disciplines:
Directors:
Abstract EN:
Rollback/recovery solutions rely on checkpoint storage reliability (after a failure, if the checkpoint images are not available, the rollback operation fails). The goal of this thesis is to propose a reliable and an efficient checkpoint storage service. By reliable, we mean that whatever the scenario of failures is, as long as it respects the assumptions made by the algorithms, the checkpoint images are still available. And we mean by efficient, minimizing the time required to transfer and to store the checkpoint images. This will minimize the global execution time of the checkpoint waves. To ensure those two points (reliability and efficiency), we propose: 1. A new coordinated checkpoint protocol which tolerates checkpoint server failures and clusters failures, and ensures a checkpoint storage reliability in a grid environment; 2. A distributed storage service structured on three layers architecture: a) The replication layer: to ensure the checkpoint storage reliability, we propose to replicate the images over the network. Ln this direction, we propose two hierarchical replication strategies adapted to the considered architecture and that exploit the locality of checkpoint images in order to minimize inter-cluster communication. B) The scheduling layer: at this level we work on the storage efficiency by reducing the data transfer time. We propose an algorithm based on the uniform random sampling of possible schedules. C) The scheduling engine: at this layer, we develop a tool that implements the scheduling plan calculated in the scheduling layer.
Abstract FR:
Les techniques de tolérance aux fautes basées sur les points de reprise s'appuient principalement sur la fiabilité du stockage des images de checkpoint. Dans le cas où ces images ne seraient pas disponibles, le redémarrage du système échoue. L'objectif de cette thèse est de proposer des solutions qui garantissent le stockage fiable et efficace des données en général et des images de checkpoint en particulier. Par fiable, nous voulons dire quelque soit le scénario de pannes qui se produit, du moment qu'il respecte les hypothèses faites par les algorithmes, les images restent accessibles. Et nous entendons par efficace, minimiser le temps nécessaire au stockage des images et donc le temps de transfert. Ceci permettra de réduire le temps d'exécution global des vagues de checkpoint. Pour garantir ces deux points, nous proposons : 1. Un protocole de checkpoint coordonné qui exploite la localisation des images de checkpoint afin de réduire au maximum les communications inter-cluster ; 2. Un service de stockage distribué et structuré en une architecture à trois couches : a) La couche réplication : afin de garantir la fiabilité des données stockées, nous proposons de répliquer les différentes images sur un certain nombre de serveur. Dans cette direction, nous avons proposé deux techniques de réplication hiérarchique adaptées à l'architecture considérée. B) La couche planification : à ce niveau, nous avons travaillé sur l'efficacité du stockage en réduisant le temps de transfert des données sur le réseau. Pour cela, nous proposons d'ordonnancer les transferts au niveau des sources. C) L'outil d'ordonnancement, implémentant le plan de transfert tel que calculé par la couche supérieure.