Coopération entre les aires corticales pour l'acquisition des capacités de reconnaissance visuelle invariante : modélisation fonctionnelle
Institution:
Paris, EHESSDisciplines:
Directors:
Abstract EN:
We can recognize objects despite changes of point of view, eye’s position, size, orientation, relative position or non rigid transformations of the object itself (for instance of a newspaper or a gymnast). How this cognitive ability can be learned? That’s the question we try to answer in that work, which slots in the Cognitive Science framework, coupling neuroscience, experimental psychology, and connectionist modelling in order to take into account the richness of the biological neural substrate and of the multiplicity of the infant’s learning. We try to describe a progressive use of different kinds of sensorial and motor information, from the maturation logic of the nervous system, in the same connectionist neural network, which’s combinatory resembles in the most closer way possible to the actual visual cortex system. Within the framework of this connectionist neural network, we focus on the problem of the acquisition of perceptive visual invariants, that we modularise in a series of different learning stages from the developmental data, and we are interested in the causal sequence generated by this network, linking for instance the development of ocular exploration and the development of infant’s perceptual abilities. The first chapter reminds the conceptual foundations of connectionism, pointing particularly on the relative invariance capacities and the limits of different “classical” neural networks models. In the first part of the second chapter, we propose a review of the data from neurobiology, experimental psychology relative to the architecture of the cortical visual system, analysed from the point of view of the objects coding for an invariant recognition. A foreword to this part will present a synthesis on the principal invariant recognition theories. The second part gives a review of the connectionist solutions to the invariant visual recognition problem, naming a classification of different kinds of neural networks models, biologically plausible or not, arranged in four big classes to get perceptive invariance: I) invariance through the input coding (local or global transformation), II) invariance thanks to changes of the neural network structure or correlation methods: III) invariance to perspective by interpolation between a collection of 2D views: a)memorization of prototypes by RBF connectionists networks and b) use of the information of the spatiotemporal continuity. With the concepts of the first, the third chapter focus on the neural processing, realized by the visual cortex, considered as an architecture of a network of “cortical column” networks. Within this connectionist paradigm, a functional benchmarking of the invariance capacities of such a model of the cortical visual system is proposed from two simulations on a network of transputers applied a task of characters recognition. The relative translation and scale invariance capacities obtained, result principally from the cooperation between two networks (the first one models the temporal way of the visual cerebral cortex, dedicated more particularly to the identification task, the second one models the parietal, dedicated to the perception of space and ocular exploration). In order to reach the goal of this thesis, which consists in finding the correspondences between the development stages of the infant’s visual system and the setting of functional relations that could allow perceptive invariance, the last chapter proposes a functional modelling, that posits at the different levels of the architecture of the visual system in maturation, the neural networks models detailed previously in the second part of the second chapter to solve the problem of invariant recognition. This functional modelling make reference to the mechanisms simulated in the second part of the third chapter.
Abstract FR:
Nous pouvons reconnaître des objets alors que des changements de points de vue, de la position de l’œil, de taille, d’orientation, de position relative ou des déformations de l’objet lui-même (par exemple d’un journal ou d’un gymnaste) modifient de manière notable leurs projections rétiniennes. Comment cette capacité cognitive peut-elle être apprise ? C’est à cette question que nous tentons de répondre dans ce travail, qui s’inscrit dans le cadre des Sciences Cognitives, associant neurosciences, psychologie expérimentale et modélisation connexionniste pour prendre en compte la richesse du substrat biologique et la multiplicité des apprentissages du nourrisson. On tente de décrire une utilisation progressive des différentes sources d’informations sensorielles et motrices à partir de la logique de maturation du système nerveux, dans un même réseau connexionniste dont la combinatoire est la plus proche possible, dans ses grandes lignes, de celle du cortex visuel. Dans le cadre de ce réseau connexionniste, on s’attache au problème de l’acquisition de l’invariance visuelle que l’on décompose en une suite d’apprentissages progressifs à partir des données développementales, et on s’intéresse à l’enchaînement causal généré par ce réseau, liant par exemple le développement de l’exploration oculaire et celui des capacités perceptives. Le chapitre I pose les bases conceptuelles du connexionnisme, en s’attachant plus particulièrement aux capacités d’invariance relative des différents modèles de réseaux de neurones « classiques » et à leurs limites. Le chapitre II. A présente une synthèse minimaliste quant aux données issues de la neurobiologie, de psychologie expérimentale, concernant l’architecture du système visuel, avec pour grille d’analyse le problème de la représentation des objets dans le but d’obtenir une reconnaissance invariante. Un avant-propos à cette partie fera le point sur les principales théories de reconnaissance invariante. Le chapitre II. B propose une revue de l’existant comme solutions connexionnistes au problème de la reconnaissance visuelle invariante, à savoir une classification des différents modèles de réseaux de neurones, plausibles biologiquement ou non, ordonnée en quatre grandes méthodes d’obtention de l’invariance : i) Invariance par le codage de la forme d’entrée (transformation locale ou globale) ; ii) Invariance par apprentissage de la transformation géométrique ; iii) Invariance par la structure du réseau de neurones ou méthodes de corrélation ; iv) Invariance 3D par interpolation entre des vues 2D : a) mémorisation de prototypes par réseaux connexionnistes de type RBF et b) exploitation de l’information de contiguïté spatio-temporelle. Le chapitre III s’attache, à la lumière des concepts du chapitre I, aux opérations neurales réalisées par le cortex visuel en tant qu’architecture de réseau de réseaux de « colonnes » corticales. Dans ce paradigme connexionniste, une évaluation fonctionnelle des capacités d’invariance d’un modèle du système visuel est proposée à partir de deux simulations sur réseau de transputers pour une application de reconnaissance de caractères. Les propriétés d’invariance en translation et en homothétie obtenues, résultent principalement des coopérations entre deux réseaux (l’un modélisant la voie temporale du cortex visuel, dédié plus particulièrement à l’identification, l’autre modélisant la voie pariétale dédiée à la perception de l’espace et son exploration oculaire). Pour atteindre l’objectif de cette thèse qui consiste à mettre en correspondance les étapes de développement visuel du jeune enfant avec la mise en place des relations fonctionnelles qui peuvent permettre la constance perceptive, le chapitre IV propose une modélisation fonctionnelle qui resitue aux différents niveaux de l’architecture du système visuel en développement les modèles de réseaux neuronaux proposés au chapitre II. B pour résoudre le problème de l’invariance perceptive. Cette modélisation fonctionnelle s’appuie également sur les mécanismes validés par simulation au chapitre III.