Le dilemme entre exploration et exploitation dans l'apprentissage par renforcement : optimisation adaptative des modeles de decision multi-etats
Institution:
CaenDisciplines:
Directors:
Abstract EN:
Pas de résumé disponible.
Abstract FR:
Cette these s'interesse au dilemme entre l'exploration et l'exploitation tel qu'il se pose dans les algorithmes de l'apprentissage par renforcement, c'est-a-dire au probleme du choix de l'action lors de l'optimisation adaptative des modeles de decision multi-etats. Nous nous focalisons sur le cas des processus de decision markoviens. L'apprentissage par renforcement se caracterise par l'utilisation de solutions approchees. Notre recherche vise a ameliorer ces solutions. Dans ce but, nous nous inspirons du travail d'autres communautes comme l'aide a la decision et la commande optimale adaptative. Au travers de la presentation des resultats des differents domaines, nous soulignons les trois difficultes suivantes: 1 l'impossibilite d'obtenir des certitudes sur les parametres inconnus avant un nombre infini d'experimentations, et donc la necessite de choisir entre ne jamais abandonner completement l'exploration et prendre le risque de se focaliser sur une solution sous-optimale ; 2 l'insuffisance des raisonnements a l'echelle locale, c'est-a-dire la necessite de savoir anticiper, depuis un etat du modele, les observations qui pourront etre faites dans les autres etats ; 3 la sensibilite des algorithmes a la representation du probleme utilisee. Beaucoup d'algorithmes de l'apprentissage par renforcement utilisent une approche distribuee qui consiste a representer le probleme de l'apprentissage d'un modele multi-etats, par un ensemble de problemes a un etat appeles problemes de bandit. Nous soulignons quelques limites de cette demarche, et en particulier le fait qu'elle n'est pas satisfaisante au regard du deuxieme des points enonces ci-dessus. Nous proposons de contourner cela en introduisant un mecanisme de retropropagation de l'incertitude mesuree, de maniere a simuler un raisonnement a l'echelle globale. Cela permet de concevoir des algorithmes satisfaisant au regard des trois difficultes soulignees precedemment. Des simulations numeriques sont menees de maniere a mettre en evidence l'interet et les limites des differentes propositions. Pour cela, nous utilisons un ensemble de problemes de decision markoviens extraits de la litterature, ou construit de maniere a couvrir le plus largement la gamme des problemes possibles. La contribution de cette these consiste donc en: la synthese des differentes approches du probleme, l'etude des limites des architectures distribuees de l'apprentissage par renforcement, la proposition d'algorithmes utilisant la retropropagation de l'incertitude, les resultats des simulations numeriques