EmuGrid : études de mécanismes de virtualisation pour l'émulation conforme de Grilles à grande échelle
Institution:
Paris 11Disciplines:
Directors:
Abstract EN:
In the distributed systems domain, emulation is a significant methodology. It allows to test real applications, observe their behavior, experimentally verify some of their properties and achieving measurements in a controlled environment. However, there is no emulator for the large scale which owns essential characteristics like reproducibility. The main goal of this thesis is to make up an environment to emulate large scale distributed systems (typically 100 000 nodes). The accomplished work has been first to enumerate the different ways for evaluating distributed system at large scale. Then, we have defined expected characteristics for a tool which could emulate many machines while showing essentials characteristics like fairness, reproducibility, etc. This specification is the root of an architecture proposal for the V-DS tool (Virtualization environment for large-scale Distributed Systems). The continuation of this thesis describes implementation choices and the software / middleware selection to realize the emulator. A set of experiments achieved with 10 000 virtual machines on a 250 nodes cluster with bi-processors validates the initially defined properties. The validated emulator has been used to study virtualization impact on parallel applications execution. Experiments have mainly consisted in measuring execution time of MPI (Message Passing Interface) processes by varying the amount of virtual machines per physical node. V-DS has permitted us to test how scale different Distributed Hash Table (DHT) implementations. At last, the emulator is actually being upgraded to allow “data link” network layer emulation.
Abstract FR:
Dans le cadre des systèmes distribués, l'émulation est une méthodologie très importante. Elle permet de tester des applications réelles, de vérifier expérimentalement certaines de leurs propriétés et de réaliser des mesures, dans un environnement contrôlé. Cependant, il n'existe aucun émulateur pour la très grande échelle possédant des caractéristiques essentielles comme la reproductibilité. Le but de cette thèse est de concevoir un environnement d'émulation de systèmes distribués à grande échelle (100K nœuds). Les travaux réalisés ont consisté, à recenser les différents moyens d'évaluer de tels systèmes. Ensuite, nous avons défini les caractéristiques attendues pour un outil d'émulation permettant d'obtenir un grand nombre de machines tout en respectant les caractéristiques essentielles d'isolation, de reproductibilité, etc. Cette spécification est à la base d'une proposition d'architecture pour l'outil V DS (Virtualization environment for large-scale Distributed Systems). La suite de la thèse décrit les choix d'implantation et la sélection des composants logiciels nécessaires à sa réalisation. Des expériences ont été réalisées avec 10K machines virtuelles sur un cluster de 250 nœuds pour valider les propriétés recherchées initialement. V DSV-DS a été utilisé pour étudier l'impact de la virtualisation sur des exécutions d'applications parallèles. Nous avons mesurer des temps d'exécution de processus MPI en variant la quantité de machines virtuelles par machine physique. V DS a aussi servi à tester le passage à l'échelle d'implantation de différentes DHT. Enfin, l'émulateur est en cours d'amélioration pour permettre l'émulation de la couche "liaison de données".