Apprentissage de systèmes d'inférence floue par des méthodes de renforcement : application à la régulation d'ambiance dans un bâtiment d'élevage porcin
Institution:
Rennes 1Disciplines:
Directors:
Abstract EN:
Pas de résumé disponible.
Abstract FR:
Afin de s'adapter à leur environnement, les systemes biologiques supérieurs mettent en jeu des méanismes internes. Parmi ceux-ci, certain entrainent des modifications stables de l'activite psychologique qui constituent alors l'apprentissage. Dans la communaute informatique, l'apprentissage est appréhende comme un calcul, i. E. Une série de modifications des caractéristiques de l'apprenti. Bien entendu, cet apprenti n'est plus un système biologique mais un programme informatique adaptatif. Le type d'apprentissage considéré dans cette thèse s'apparente à celui mis en évidence par les behavioristes dans le conditionnement opérant, i. E. L'acquisition d'un comportement uniquement en fonction de renforcements. Le dispositif calculatoire utilise pour implémenter l'apprenti est un systeme d'inférence floue (sif). Ces systèmes reposent sur des règles si-alors formulées avec des termes linguistiques. Ils sont en cela proches du langage naturel et d'une grande lisibilité. Quoique cette dernière permette parfois une mise au point de sif par extraction naturelle des connaissances, il s'avère nécessaire de recourir à des méthodes d'apprentissage lorsque les connaissances expertes ne sont pas disponibles ou exploitables. C'est la raison pour laquelle nous avons mis au point le fuzzy actor-critic learning (facl) et le fuzzy q-learning (fql), deux méthodes permettant à l'apprenti d'acquérir une politique de contrôle de processus uniquement par le seul biais de son intéraction avec l'environnement (i. E. Les récompenses et les punitions). Après avoir validé ces methodes sur des problèmes à caractère pédagogique, nous soumettons au sif l'apprentissage d'une politique de régulation de l'ambiance dans les bâtiments d'élevage porcin. La partie sensorielle de l'apprenti est préalablement mise au point après une phase d'extraction naturelle des connaissances. L'unique moyen dont il dispose pour résoudre cette tâche réside dans la variation des débits de ventilation. Par le biais des méthodes sus-citées, il adapte alors incrémentalement son comportement de façon optimiser les renforcements. Les expérimentations menées avec le régulateur flou permettent de constater que la politique obtenue satisfait complètement les contraintes décrites par les fonctions de renforcements.