Une approche globale fondee sur la replication pour la disponibilite et l'efficacite des systemes extensibles a memoire partagee
Institution:
Rennes 1Disciplines:
Directors:
Abstract EN:
Pas de résumé disponible.
Abstract FR:
Les travaux presentes dans cette these portent sur la conception et la mise en uvre d'un mecanisme efficace de tolerance aux fautes, exploitant la replication de donnees, dans les systemes extensibles a memoire partagee repartie (mpr). Ces architectures sont particulierement attrayantes pour l'execution des applications paralleles dont les besoins ne cessent d'augmenter car elles allient un modele de programmation simple a une grande puissance de calcul. Toutefois, l'inconvenient majeur de ces architectures est leur probabilite de defaillance qu'entraine le nombre substantiel d'elements dont elles sont composees. Nous avons en premier lieu passe en revue les diverses architectures a mpr et les solutions, toutes fondees sur le retour arriere, proposees pour assurer leur disponibilite. Nous nous sommes attaches au cas d'une memoire virtuelle partagee (mvp) recouvrable mise en uvre sur un reseau de stations de travail. Pour assurer la propriete de disponibilite, nous avons choisi un mecanisme initiallement concu pour une architecture coma (cache only memory architecture), qui met en uvre efficacement le retour arriere. Il repose sur l'extension du protocole de coherence d'une mpr et permet de sauvegarder en memoire vive donnees courantes et de recuperation. Dans ce contexte, la replication inherente au fonctionnement des architectures a mpr et exploitee afin de limiter le cout de la tolerance aux fautes. A cette image, nous avons propose des algorithmes qui exploitent la replication introduite par le retour arriere, a des fins d'efficacite. Ils reposent sur la creation d'affinite entre modules memoire et entites de calcul lors de l'etablissement d'un point de recuperation. Ces algorithmes permettent d'anticiper des defauts de page tant en fonctionnement normal qu'a la reprise apres une defaillance. Dans cette derniere situation, ils contribuent a limiter la periode transitoire de regarnissage des emoires qui suit l'occurence d'une faute permanente. En outre, nous avons propose une technique complete de reconfiguratiuon. Nous avons integre une technique de reprise de processus qui maintient la charge equilibree apres la reprise. Nous avons defini, outre un algorithme de repartition de la charge de calcul du nud defaillant, une fonction qui permet de redistribuer uniformement la charge de gestion de la coherence du nud defaillant. Ainsi, en cas de faute permanente, les algorithmes proposees permettent de restaurer une physionomie du systeme proche de celle qu'il arborait avant la defaillance. Une mvp recouvrable, icare reposant sur ces mecanismes, a ete mise en uvre sur la plate-forme astrolab, un reseau de stations de travail connectees par atm et utilisant le micro-noyau chorus. Icare a ete integre au sein d'un systeme de reprise des processus. Le cout du mecanisme de sauvegarde de points de recuperation ainsi que l'impact de la creation d'affinite ont ete mesures. Nous montrons en conclusion de quelle maniere les algorithmes proposes peuvent etre appliques aux differents types d'architectures a mpr