Perception attentive et vision en intelligence artificielle
Institution:
Paris 11Disciplines:
Directors:
Abstract EN:
The work presented in this thesis deals with the development of software agents endowed with perceptive capacities. To provide such a system with exploratory capacities supposes the determination of interest points in the scene. In order to be able to move in the image, one will distinguish a low-resolution wide field processing and a high resolution focal processing. One thus separates the exploration phase associated to the search of interest points from the exploitation phase associated to recognition recognition. The selected points consist of energy maxima computed using wavelet filters covering a range of orientations and frequencies. The low frequencies are used to determine the peripheral saliency. Principal Component Analysis (PCA) projection system was computed from a representative sample of natural scenes. This system was used to categorize the interest points of an unspecified scene. The system thus can use several points of view to guide its attentionnal mechanisms. The energy of these interest points according to various orientations and space frequencies is then used to index them. We showed that the low frequency components of this indexed representation are sufficient to bias the saliency of the scene in favor of targets similar to the representations memorized. They are also sufficiently robust to preserve this property in a video sequence subject to strong contrast variations. We showed as well that interest points based on a multi-scale frequency analysis can be used to control exploratory saccades by using a bottom-up mechanism; the low frequency part of such a representation can be used to control the saccades required to attain the target in a top-down way.
Abstract FR:
Le travail présenté dans cette thèse s'inscrit dans la problématique du développement d'agents logiciels dotés de capacités perceptives. Munir de tels systèmes de capacités exploratoires suppose dans un premier temps la détermination des points d'intérêt de la scène visuelle. Afin de pouvoir se déplacer dans la scène, on distinguera les traitements en champ large et basse résolution des traitements focaux en haute résolution. On sépare ainsi la phase d'exploration associée à la recherche des points d'intérêt de la phase d'exploitation associée à la reconnaissance. Les points d'intérêt retenus sont constitués de maxima d'énergie calculés à l'aide de filtres en ondelettes couvrant une gamme d'orientations et de fréquences spatiales. Les plus basses fréquences sont utilisées pour déterminer les saillances périphériques. Nous montrons que les axes d'une Analyse en Composantes Principales (ACP) d'un échantillon représentatif de scènes naturelles constituent un système de projection permettant de catégoriser les points d'intérêt d'une scène quelconque. Ce système dispose ainsi de plusieurs points de vue de la scène aptes à guider ses mécanismes attentionnels. L'énergie de ces points d'intérêt selon différentes orientations et fréquences spatiales est alors utilisée pour les indexer. Nous avons montré que les composantes de basse fréquence de cette représentation indexée sont suffisantes pour biaiser les saillances de la scène en faveur de cibles similaires aux représentations mémorisées et assez robustes pour conserver cette propriété dans une séquence vidéo soumise à de fortes variations de contraste. Nous démontrons ainsi que des points d'intérêt fondés sur une analyse fréquentielle multi-échelle peuvent être utilisés pour contrôler des saccades exploratoires par un mécanisme ascendant; la part basse fréquence d'une telle représentation peut contrôler de façon descendante des saccades guidées par la cible recherchée.