Apprentissage par renforcement en horizon fini : Application à la génération de règles pour la conduite de culture
Institution:
Toulouse 3Disciplines:
Directors:
Abstract EN:
Pas de résumé disponible.
Abstract FR:
Le point essentiel de la première partie de la thèse a été d'adapter au cadre de l'horizon fini les méthodes d'apprentissage par renforcement (AR) existantes. Nous avons considéré essentiellement deux d'entre elles basées sur le principe des différences temporelles, le Q-Learning et le R-Learning, qui différent sur la fonction d'évaluation. Toutes les études faites dans ce domaine concernent des problèmes en horizon infini. Les résultats obtenus nous ont permis d'établir un lien entre le critère 1-pondéré (Q-Learning) et le critère moyen (R-Learning) en horizon fini. La réécriture du R-Learning en horizon fini montre une équivalence entre le critère moyen et le critère fini. La méthode de l'ODE (ordinary differential equation) a été utilisée pour analyser la vitesse de convergence de ces algorithmes en horizon fini. Nous avons montré que le R-Learning pouvait être vu comme une version à gain matriciel du Q-Learning. Le second problème a été la représentation de l'espace de résolution en AR. Généralement les algorithmes d'AR sont appliqués sur des espaces discrets alors que dans notre problème de conduite de culture nous avons à faire avec des espaces mixtes (discrets et continus). Une solution est d'utiliser la méthode de représentation par CMAC (cerebellar model articulation controller) communément utilisée en AR. Cependant, bien que donnant des résultats satisfaisants, ce mode de représentation n'est pas adéquat pour notre application parce qu'il ne fournit pas une caractérisation intelligible pour l'utilisateur agronome de la notion de stratégie. Une représentation par un ensemble de règles de décision de la forme si alors est préférable. La solution envisagée est d'apprendre directement des stratégies de conduite de culture sous forme de règles de décision. Pour cela, des techniques d'algorithmes génétiques (AG) sont utilisées pour modifier et apprendre la structure optimale des règles de décision.