thesis

Version tolérante aux fautes d'une machine parallèle asynchrone à réduction de graphes

Defense date:

Jan. 1, 1988

Edit

Disciplines:

Directors:

Abstract EN:

Pas de résumé disponible.

Abstract FR:

Le problème de la tolérance aux fautes et du recouvrement d'erreur est abordé pour le multiprocesseur parallèle "MaRS" (Machine à Réduction Symbolique). Ce système à contrôle décentralisé utilise une communication asynchrone et différée entre des processus coopérants fortement couplés. La machine, qui calcule une expression fonctionnelle par des réécritures successives de son graphe-programme, est constituée de Processeurs de Mémoire et de Processeurs de Réduction interconnectés par un réseau "Omega" de Processeurs de Communication. On propose des mesures de détection de fautes des processeurs et de confinement des erreurs résultantes. Ceci permet un recouvrement d'erreur par reprise : on ramène à un état "non-réduit" les nœuds du graphe qui étaient "en réduction" au moment de l'erreur détectée. En plus, on indique des techniques de masquage de faute / erreur pour les cas où les erreurs sont détectables sans perte d'information. Les fautes simples et multiples des processeurs de communication sont traitées par des mécanismes de reroutage, applicables quand le réseau survivant conserve une Accessibilité Dynamique Pleine. Les combinaisons possibles de mesures, mécanismes et autres techniques définissent un certain nombre de configurations tolérantes aux fautes pour la machine, parmi lesquelles on en choisit deux comme les plus représentatives. Finalement, on propose des directives pour une évaluation des configurations choisies, faite en termes de coût et performance rélatifs.