Approche multi-agents pour la supervision adaptative des systèmes distribués
Institution:
Paris 6Disciplines:
Directors:
Abstract EN:
La supervision d'un système consiste en la détection, l'isolation, l'identification et la réparation des fautes survenant en son sein. Avec l'avènement de systèmes distribués et asynchrones, l'approche traditionnelle de la supervision, centralisée, est aujourd'hui remise en question. En effet, lorsque les communications sont perturbées l'information met un temps indéfini à atteindre sa destination, ce qui augmente le temps de dysfonctionnement du système supervisé. Le travail présenté dans ce manuscrit a donc pour objectif l'étude de l'obtention d'un système de supervision à même de superviser efficacement et continuellement un système distribué en présence de communications non fiables. La nature du problème nous a conduit à l'élaboration d'un système de supervision distribué reposant sur une architecture de supervision multi-agents où chaque agent est doté d'une vision locale et de capacités de diagnostic et de réparation. Ce choix nous a conduit à aborder le problème de la supervision comme un problème de prise de décision distribuée par des agents agissant sous incertitude. Nous proposons dans ce manuscrit un modèle décisionnel d’agent, un mécanisme de coordination et de resynchronisation de l'état du système et un algorithme entrelaçant les phases de diagnostic et de réparation permettant d’adapter automatiquement et dynamiquement le comportement du système de supervision à l’état des communications. Cette thèse ayant été effectuée dans le cadre d'un partenaria industriel au sein du projet Dem@t-Factory, nous procédons à l'évaluation de l'approche proposée à partir de données réelles.
Abstract FR:
Supervising a system consists in the detection, isolation,identification and then repair of any fault that may occur in it. Nowadays, supervised systems are often distributedand communications are asynchronous. When communica-tions are disrupted, information takes an indefinite time toreach its destination, which slows down or stops the su-pervision process. The question is thus how to efficiently supervise a distributed system with unreliable communica-tions ? We claim that the answer to this question requiresa distributed supervision system. In this document, we presentADS2, a multi-agent supervision architecture that is robustin a context of unreliable communications. ADS2 has fourmain characteristics : (1) Each agent can perform both di-agnosis and repair, (2) Each agent can find a balance be-tween a quick local diagnosis and repair, and a delayed, sys-temic one, based on the respective costs of misdiagnosis andcommunication, (3) Agents may form a coalition to restorea consistent view of the system state in case some had toact locally with incomplete information at an earlier stage. (4) Each agent is able to untertwine the diangostis and repair steps in order to reduce the size of the diagnosis search space and thus the time of malfunction. The document develops our proposal along these four charac-teristics, and evaluates AD2 using an industrial case-study.