thesis

Découverte des activités humaines dans des vidéos

Defense date:

Jan. 1, 2012

Edit

Institution:

Nice

Disciplines:

Authors:

Abstract EN:

The main objective of this thesis is to propose a complete framework for activity discovery, modelling and recognition using video information. The framework uses perceptual information (e. G. Trajectories) as input and goes up to activities (semantics). The framework is divided into five main parts. First, we break the video into clunks to characterize activities. We propose different techniques to extract perceptual features from the chunks. This way, we build packages of perceptual features capable to describing activity occurring in small periods of time. Second, we propose to learn the video contextual information. We build scene models by learning salient perceptual features. The model ends up containing interesting scene regions capable of describing basic semantics (i. E. Region where interactions occur). Third, we propose to reduce the gap between low-level vision information and semantic interpretation, by building an intermediate layer composed of Primitive Events. The proposed representation for primitive events aims at describing the meaningful motions over the scene. This is achieved by abstracting perceptual features using contextual information in an unsupervised manner. Fourth, we propose a pattern – based method to discover activities at multiple resolutions (i. E. Activities and sub-activities). Also, we propose a generative method to model multi-resolution activities. The models are built as a flexible probabilistic framework easy to update. Finally, we propose an activity recognition method that finds in a deterministic manner the occurrences of modelled activities in unseen datasets. Semantics are provided by the method under interaction. All this research work has been evaluated using real datasets of people living in an apartment (home-care application) and elder patient’s ion a hospital.

Abstract FR:

L’objectif principal de cette thèse est de proposer un système complet pour la découverte, la modélisation et la reconnaissance des activités humaines en utilisant des informations provenant de données vidéo. Cette approche utilise l’information visuelle (les trajectoires des objets détectés par exemple) en entrée et donne en sortie les activités (la sémantique). L’approche est divisée en cinq étapes principales. Tout d’abord, nous découpons la vidéo en morceaux pour caractériser les activités. Nous proposons différentes techniques pour extraire les caractéristiques visuelles de ces morceaux. De cette façon, nous construisons un ensemble de caractéristiques visuelles capables de décrire l’activité se produisant sur une courte période de temps. Deuxièmement, nous proposons d’apprendre l’information contextuelle de la scène observée. Nous construisons des modèles de la scène en apprenant les caractéristiques visuelles les plus significatives. Les modèles sont des régions contenant des activités intéressantes capables de décrire une sémantique de base (les régions où les interactions se produisent). Troisièmement, nous proposons de réduire le fossé entre l’information visuelle de bas niveau et l’interprétation sémantique des données, en construisant une couche intermédiaire composée d’événements primitifs. Ces événements visent à décrire les mouvements significatifs des objets de la scène. Ce résultat est obtenu en abstrayant les caractéristiques visuelles et en s’appuyant sur l’information contextuelle de manière non supervisée. Quatrièmement, nous proposons une méthode basée sur des modèles pour découvrir les activités à de multiples résolutions (à savoir les activités et leurs sous-activités). En outre, nous proposons une méthode générative pour modéliser les activités à différentes résolutions. Les modèles sont construits comme un cadre souple probabiliste facile à mettre à jour. Enfin, nous proposons une méthode de reconnaissance des activités qui trouve de manière déterministe les occurrences d’activités modélisées dans de nouvelles bases de vidéos. La sémantique est fournie grâce à l’interaction de l’utilisateur sur quelques exemples d’activités reconnues. Ce travail de recherche a évalué à l’aide de données réelles de personnes évoluant dans un appartement (soins à domicile) et de patients âgés dans un hôpital.