thesis

Algorithmes d'apprentissage par renforcement pour la commande adaptative : Texte imprimé

Defense date:

Jan. 1, 1992

Edit

Institution:

Compiègne

Disciplines:

Directors:

Abstract EN:

Pas de résumé disponible.

Abstract FR:

Cette thèse présente différentes méthodes d'identification d'une loi de commande pour le contrôle de systèmes dynamiques. Ces méthodes sont basées sur l'utilisation de réseaux de neurones artificiels pour l'approximation de fonctions à partir d'exemples. Une synthèse bibliographique des différentes applications des réseaux de neurones pour le contrôle de processus est présentée. Trois types d'utilisation des réseaux de neurones sont décrits : l'identification directe d'un système ou d'un contrôleur à partir d'exemples, l'identification d'un contrôleur grâce à l'algorithme de «rétropropagation à travers le temps» et, enfin, les méthodes d'apprentissage par renforcement. Cette dernière famille d'algorithmes est analysée en détail. Un nouvel algorithme d'apprentissage par renforcement baptisé «B-Learning» est proposé. L'originalité de cet algorithme réside dans l'estimation de «bénéfices» associés aux commandes. Ces bénéfices sont définis comme la variation au cours du temps de la qualité à long terme de l'état du système. Le B-Learning ainsi que d'autres algorithmes d'apprentissage par renforcement sont expérimentés sur un cas d'école, le pendule inverse, ainsi que sur une application industrielle : le contrôle d'une usine de production d'eau potable