thesis

Algorithme d'apprentissage de la politique optimale d'un processus stochastique : application à un réseau d'alimentation en eau potable

Defense date:

Jan. 1, 1997

Edit

Institution:

Bordeaux 1

Disciplines:

Directors:

Abstract EN:

Pas de résumé disponible.

Abstract FR:

Cette these s'interesse a l'apprentissage de problemes de controle a solutions optimales non stationnaires par une technique d'apprentissage par renforcement, le qlearning. Cette methode, comme la plupart des techniques de renforcement a toujours ete utilisee dans des applications a solutions stationnaires. La prise en compte du temps inherente a la programmation dynamique, a ete omise dans les algorithmes de type qlearning. Or un environnement non stationnaire, un cout ou une recompense dependant du temps a minimiser ou maximiser, amenent naturellement vers des solutions optimales non stationnaires. Cette dependance par rapport au temps oblige a mettre en uvre des traitements particuliers qui fournissent des solutions heuristiques economes en temps. Des simulations numeriques sont menees de maniere a mettre en evidence les solutions proposees. Enfin, la these se concretise par la mise en place d'un prototype permettant de gerer un reseau d'alimentation en eau potable de maniere optimale en utilisant une methode d'apprentissage auto-adaptatif, tel que le qlearning. Il evite, contrairement aux methodes de programmation mathematique de se heurter a la necessite de connaitre parfaitement le comportement hydraulique des reseaux, ce qui necessitait des calages a chaque modification de la structure du reseau