Détection et suivi de visage par la théorie de l’évidence.
Institution:
PauDisciplines:
Directors:
Abstract EN:
This thesis is concerned with the study of the robust tracking of a human face by a colour video camera. Using a motorized pan-tilt-zoom camera placed in an indoor context such as an office, the goal is to analyze images in real time and maintain the face in the centre of the image plane by a dynamic centering. By explorating the extremely abundant face detection state of the art, and by crossing the discourses of specialists in transverse disciplinary fields like philosophy, we indicate that a clear definition of the face is illusive. Hence, in order to take account of our face appearance uncertainty, we represent the face within the belief theory framework, by a fuzzy model merging two complementary information sources. First colour, because it stands out as a very good discriminating criterion. Based on the Denœux cautious rule, the colour fusion model considers the information source dependence. However in our application context, instead of selecting the minimal value among the colour weights, we recommend a compromise operation which retains an intermediary value between minimal and maximal weightings. This flexibility influences favourably colour fusion quality. Finally, to synthetize the face evidential model, the Viola and Jones detector attributes, choosen because of their excellent faculty to detect faces, are converted in basic belief assignments and then merged with the colour model using a variant of the adaptive Florea fusion rule. In order to track face in position, size and pose, the evidential model is placed upstream a classic bootstrap particle filter. The target (i. E, the face) is modelled as a vector representing an ellipse. The tracking algorithm is composed of two phases. First, the state vector centre position is estimated by taking into account the pignistic probability resulting from the fusion process. Then, from this position, the shape parameters are computed. From these data, the visual servoing insures the pursuit task and controls the camera zoom to keep face with a constant size inside the camera image plane. By adapting the face evidential model parameters values, we show the possibility to influence the particle filter behaviour. Nevertheless, the interaction control between the fusion process and the particle filter remains delicate. Indeed, a badly adapted fuzzy contribution can distort the face model and lead to the filter divergence. That is the reason why we intend to use the modern tools in automation to manage the fusion parameters and control a certain level of tracking robustness.
Abstract FR:
Le thème de recherche abordé dans cette thèse concerne le suivi robuste d’un visage par une caméra vidéo. Cette caméra motorisée et asservie, analyse en temps réel les images captées dans un environnement d’intérieur tel qu’un bureau, et maintient par un cadrage dynamique le visage au centre du plan image. En explorant l’état de l’art extrêmement abondant sur la détection du visage, et en croisant les discours de spécialistes dans des champs disciplinaires transversaux, nous indiquons que la définition claire de la notion du visage est illusoire. Afin d’intégrer cette incertitude sur l’apparence du visage, notre choix s’est orienté vers une modélisation « floue » du visage qui fusionne, dans le cadre de la théorie de l’évidence, deux informations complémentaires. D’abord la couleur car elle s’impose comme un très bon critère discriminant. La modélisation est basée sur l’emploi de la règle prudente de Denœux pour justifier théoriquement la combinaison de ces sources dépendantes. Au lieu de sélectionner le poids minimal parmi ceux associés aux sources couleur, nous montrons que l’introduction d’une flexibilité grâce à l’emploi d’un opérateur de compromis, qui retient une valeur intermédiaire entre les pondérations minimale et maximale, influence favorablement la qualité de la fusion. Enfin pour synthétiser le modèle complet du visage, les attributs du détecteur de Viola et Jones, connus pour leur excellente capacité à détecter des visages, sont convertis en fonctions de croyance puis fusionnés au modèle couleur en utilisant une légère variante de la règle de fusion de Florea. Afin d’assurer le suivi du visage en position, taille et pose au cours de la séquence vidéo, nous présentons une architecture où le modèle de visage évidentiel se situe en amont d’un filtre particulaire classique de type « bootstrap ». Dans ce cadre, la cible (i. E, le visage) est modélisée par un vecteur représentant une ellipse. L’algorithme de suivi s’articule en deux étapes. Dans un premier temps, la position du centre du vecteur d’état est estimée en prenant en compte les probabilités pignistiques issues du modèle de visage évidentiel. Ensuite, à partir de cette localisation, les paramètres de forme (petit axe, grand axe et orientation) sont exhibés. Dès lors, à partir de ces données, l’asservissement visuel assure la tâche de poursuite et règle le zoom de la caméra. En adaptant correctement les valeurs des paramètres du modèle évidentiel du visage, nous montrons qu’il est possible d’influencer favorablement le suivi. Pourtant, le contrôle de cette interaction entre la fusion et le filtre particulaire demeure délicat. En effet, un apport mal adapté de « flou » risque de dénaturer complètement le modèle de visage et conduire à une divergence du filtre. C’est pourquoi, nous envisageons d’utiliser les outils de l’automatique moderne afin de garantir un certain niveau de robustesse du suivi.