Imitation algorithmique : Apprentissage Incrémental En-ligne de Séquences
Institution:
Rennes, INSADisciplines:
Directors:
Abstract EN:
In continual learning, an agent is continually interacting with its environment. At each time step, it receives inputs, uses a small amount of computations (online) and gives outputs. There is no real definition of a goal to learn, the agent must acquire more and more knowledge, incrementally, and re-use it in more complex tasks. In this framework, we are interested in learning complex sequences, involving recurrence, variables and conditions. But the agent cannot use a large number of trials and error, because of its interaction with the environment. How then can learning be possible from a small number of examples?Traditional methods that are able to solve such complex tasks do not fit in the continual learning framework, because difficulties become harder. To simplify the task, an imitation protocol is used, allowing the agent to learn by seeing a teacher doing, but this respects the continual learning constraints and keeps a high autonomy. Imitation is usually used in a robotic framework, so we extend it to learn more complex sequences~: this is Algorithmic Imitation. A learning system, CSAAL, is then developed and tested on experiments showing that it is indeed able to learn complex sequences within few examples. An extension of this system, H-CSAAL, allows to re-use hierarchically recurrent functions, increasing both the autonomy of the agent and its generalization capacities.
Abstract FR:
En apprentissage continuel, un agent apprenant est en continuelle interaction avec son environnement. À chaque instant, il reçoit des entrées, doit effectuer un calcul et un apprentissage court (en-ligne), puis renvoie des sorties. Il n'y a pas de but particulier, l'agent doit simplement apprendre au fur et à mesure, incrémentalement, sans notion de "problème" a priori, en réutilisant la connaissance acquise précédemment pour apprendre des problèmes de plus en plus complexes. Nous nous intéressons dans ce cadre à l'apprentissage de séquences complexes. Mais l'agent ne peut pas se permettre d'effectuer un grand nombre d'essais et d'erreurs. Comment dans ce cas apprendre rapidement à partir d'un nombre réduit d'exemples ?Les méthodes existantes pour résoudre de tels problèmes ne sont pas adaptées à l'apprentissage continuel, car il augmente grandement les difficultés. Pour simplifier la tâche, nous adoptons alors un protocole d'imitation, qui permet à l'agent d'apprendre en observant un professeur, tout en lui laissant une grande autonomie et en étant en accord avec l'apprentissage continuel. L'imitation étant habituellement utilisée dans un cadre robotique, nous l'étendons pour pouvoir apprendre des séquences plus complexes : c'est l'Imitation Algorithmique. Un système d'apprentissage adapté, CSAAL, est ensuite proposé et les expérimentations montrent qu'il est effectivement capable d'apprendre des séquences complexes en très peu d'exemples. Une extension du système précédent, H-CSAAL, permet alors de réutiliser hiérarchiquement des fonctions récurrentes, augmentant ainsi à la fois l'autonomie de l'agent et ses capacités de généralisation.