Knowledge Tree

thesis

Management et tolérance aux pannes des services sur grilles informatiques pour l'intégration d'applications

Defense date:

Jan. 1, 2008

Edit

Institution:

Châtenay-Malabry, Ecole centrale de Paris

Disciplines:

Applied mathematics

Authors:

Lei Yu

Directors:

Frédéric Magoulès

Abstract EN:

Grid computing is analogous to the power grid in the way that computing resources will be provided in the same way as gas and electricity are provided to us now. Along with the deployment of more and more heterogeneous clusters, the problem of requiring middlewares to leverage existing IT infrastructure to optimize compute resources and manage data and computing workloads has emerged. Grid computing has become an increasingly popular solution to optimize resource allocation and integrate variable computing resources in highly charged IT environments. Several research efforts have been conducted to support the thesis that the Grid services oriented architecture is a suitable solution for realizing legacy scientific applications integration in a grid environment, and this structure can be used to build a scalable, robust and distributed integration system. A new approach for application integration is proposed, applying WS-Resource to wrap legacy applications into Grid services. Then a centralized meta-scheduler is implemented and a new scheduling algorithm, MWL, is proposed. With the meta-scheduler and MWL, jobs can be scheduled and mapped to the resources which have the minimum workload. In order to maintain job state in WS-Resource, WS-Resource properties are defined and are used to provide information for implementing more effective job scheduling (e. G. MCT). For large-scale application integration, a distributed, scalable and robust scheduling structure is proposed. In this structure, a two-step solution is described to solve the fault-tolerant issues: the scheduling algorithm level and the failure detection mechanism. The DDFT algorithm is a robust scheduling algorithm to ensure jobs submission and mapping even if there is a failure of scheduler or connection. Moreover a series of algorithms are proposed to detect the failed scheduler or connection and reconstruct automatically the scheduling structure. Finally, a simulator based on SimGrid is developed. This simulator can be used tosimulate different topologies of distributed scheduling system.

Abstract FR:

Depuis les années 90, le terme « grille de calcul » a été proposé pour définir une infrastructure de calcul distribuée, qu'il s'agisse de ressources partagées à grande échelle, d'applications optimisées, ou de calcul à haute performance. Actuellement, la technologie des grilles de calcul évolue vers la notion de services grilles, convergence entre le web service et les grilles de calcul. Dans ce contexte, une architecture orientée services (OGSA : Open Grid Services Architecture) est apparue. La conception de services de grilles se définie comme une série de standards et de spécifications qui supportent la création des services de façon transparente et de plate-formes indépendantes. Plusieurs travaux de recherches soutiennent la thèse que la structure orientée services est une solution appropriée pour réaliser l'intégration d'applications scientifiques sur grilles informatiques. De même cette structure peut être employée pour établir un système robuste et réparti pour intégrer des applications. Dans ce manuscript, une nouvelle approche pour l'intégration d'applications scientifiques en format des services, basée sur l'encapsulation, au moyen de WS-Resources, est proposé. Un allocateur centralisé est développé et un nouvel algorithme d'ordonnancement des tâches, MWL, est proposé. Avec cet allocateur et ce MWL, les tâches peuvent être ordonnées et distribuées aux ressources qui sont le moins chargées dans le système. Afin de maintenir l'état d'une tâche dans une WS-Resource, de nouvelles propriétés de ce WS-Resource sont définies et sont employées pour fournir l'information nécessaire pour mettre en place des algorithmes d'ordonnancement des tâches plus efficaces (par exemple MCT). Pour l'intégration d'applications à grande échelle, nous proposons une structure d'ordonnancement des tâches de façon distribuée, échelonnable et robuste. Dans cette structure, une solution en deux-étapes est décrite pour résoudre le problème de tolérance aux pannes, à savoir le niveau d'un algorithme d'ordonnancement des tâches et le niveau d'un mécanisme de détection des défaillances. L'algorithme DDFT est un algorithme d'ordonnancement des tâches robuste pour assurer la soumission et l'exécution des tâches même en cas de défaillance d'un allocateur ou lors de la communication. Une série d'algorithmes est alors proposés pour détecter ces défaillances et reconstruire automatiquement la structure d'ordonnancement. Finalement, un simulateur basé sur SimGrid est développé. Ce simulateur peut être utilisé pour simuler des topologies différentes des systèmes d'ordonnancement des tâches de manière réparties.