thesis

Data-intensive scientific workflows : representations of parallelism and enactment on distributed systems

Defense date:

Jan. 1, 2011

Edit

Institution:

Nice

Disciplines:

Directors:

Abstract EN:

Porting data-intensive applications on large scale distributed computing infrastructures is not trivial. Bridging the gap between application and its workflow expression poses challenges at different levels. The challenge at the end-user level is a need to express the application's logic and data flow requirements from a non-technical domain. At the infrastructure level, it is a challenge to port the application such that a maximum exploitation of the underlying resources can takes place. Workflows enable distributed application deployment by recognizing the application component's inter-connections and the flow among them. However, workflow expressions and engines need enhancements to meet the challenges outlined. Facilitation of a concise expression of parallelism, data combinations and higher level data structures in a coherent fashion is required. This work targets to fulfill these requirements. It is driven by the use-cases in the field of medical image processing domain. Various strategies are developed to efficiently express asynchronous and maximum parallel execution of complex flows by providing concise expression and enactments interfaced with large scale distributed computing infrastructures. The main contributions of this research are: a) A rich workflow language with two-way expression and fruitful results from the experiments carried out on enactment of medical image processing applications workflows on the European Grid Computing Infrastructure; and b) Extension of an existing workflow environment (Taverna) to interface with the Grid Computing Infrastructures.

Abstract FR:

Le portage d'applications manipulant de grandes masses de données sur des infrastructures de calcul distribué à grande échelle est un problème difficile. Combler l'écart entre l'application et sa description sous forme de workflow soulève des défis fia différents niveaux. Le défi au niveau de l'utilisateur final est le besoin d'exprimer la logique de l'application et des dépendances de flots de données dans un domaine non-technique. Au niveau de l'infrastructure, il s'agit d'un défi pour le portage de l'application sur infrastructures fia grande échelle en optimisant l'exploitation des ressources distribuées. Les workflows permettent le déploiement d'applications distribuées grâce fia la représentation formelle de composants les constituant, de leurs interactions et des flots de données véhiculés. Cependant, la description de workflows et leurs gestionnaires d'exécution nécessitent des améliorations pour relever les défis mentionnés. Faciliter la description du parallélisme sous une forme concise, la combinaison des données et des structures de données de haut niveau de manière cohérente est nécessaire. Cette thèse vise fia satisfaire ces exigences. Partant du cas d'utilisation de traitement d'images médicales, plusieurs stratégies sont développées afin d'exprimer le parallélisme et l'exécution asynchrone de worflkows complexes en fournissant une expression concise et un gestionnaire d'exécution interfacé avec des infrastructures fia grande échelle. Les contributions principales de cette thèse sont: a) Un langage riche de workflows disposant de deux représentations. L'exécution des applications de traitement d'images médicales décrites avec ce langage sur la grille de calcul européenne (EGI) donne des résultats expérimentaux fructueux. B) Une extension d'un environnement d'exécution existant de flots applicatifs (Taverna) pour permettre l'exécution de l'application sur les infrastructures fia grande échelle.