Une contribution à l'apprentissage par renforcement : application au Computer Go
Institution:
Paris 11Disciplines:
Directors:
Abstract EN:
Pas de résumé disponible.
Abstract FR:
Le domaine de l'Apprentissage par Renforcement (AR) se trouve à l'interface entre la théorie du contrôle, l'apprentissage supervisé et non-supervisé, l'optimisation et les sciences cognitives, et est un domaine très actif de par ses applications et les problèmes non résolus. Cette thèse apporte quelques contributions dans ce domaine, principalement sur trois axes. Le 1er axe correspond à la modélisation de l'environnement, i. E. à l'apprentissage de la fonction de transition entre deux pas de temps. L'apprentissage et l'utilisation de ce modèle se fait efficacement dans les approches factorisées. Les Réseaux Bayesiens sont un moyen de représenter ce type de modèle, et dans ce domaine le travail présenté propose un nouveau critère d'apprentissage, à la fois pour le paramétrique (probabilités conditionnelles) et non-paramétrique (structure). Le 2ème axe est une étude du cas de l'AR en continu (espace d'état et d'action), à partir de l'algorithme de résolution par programmation dynamique. Cette analyse s'attaque à trois étapes fondamentales de cet algorithme: l'optimisation (choix de l'action à partir de la fonction de valeurs (FV)), l'apprentissage supervisé (regression) de la FV et le choix des exemples sur lesquels apprendre (apprentissage actif). Le 3ème axe de contribution correspond au domaine applicatif du jeu de Go, qui est un cas discret et de grande dimension qui reste un grand challenge pour les algorithmes d'AR. Dans ce domaine, les algorithmes utilisés et améliorés ont permis au programme résultant, MoGo de gagner de nombreuses compétitions internationales et devenant par exemple le premier programme jouant à un niveau dan amateur sur plateau 9x9.