thesis

Représentations statistiques supervisées pour la reconnaissance d'actions humaines dans les vidéos

Defense date:

Jan. 1, 2012

Edit

Institution:

Rennes 1

Disciplines:

Abstract EN:

Dans cette thèse, nous nous occupons du problème de la reconnaissance d'actions humaines dans les données vidéo réalistes, telles que des films et des vidéos en ligne. La reconnaissance automatique et exacte des actions humaines dans une vidéo est une capacité fascinante. Les applications potentielles vont de la surveillance et de la robotique au diagnostic médical, à la recherche d'images par le contenu et les interfaces homme-ordinateur intelligents. Cette tâche constitue un grand défi à cause des variations importantes dans les apparences des personnes, les fonds dynamiques, les changements d'angle de prise de vue, les conditions de luminosité, les styles d'actions et d'autres facteurs encore. Les représentations de vidéo statistiques basées sur les caractéristiques spatio-temporelles locales se sont dernièrement montrées très efficaces pour la reconnaissance dans les scénarios réalistes. Leur succès peut être attribué à des hypothèses favorables, relatives aux données et à la solidité par rapport à plusieurs variations dans la vidéo. De telles représentations, encodent néanmoins souvent des vidéos par un ensemble désordonné de primitifs de bas niveau. La thèse élargit les méthodes actuelles en développant des caractéristiques plus distinctives et en intégrant un contrôle additionnel dans les sacs de caractéristiques basés sur les représentations vidéo, visant à améliorer la reconnaissance d'actions dans des données vidéos sans contrainte et particulièrement difficiles.

Abstract FR:

This thesis addresses the problem of human action recognition in realistic video data, such as movies and online videos. Automatic and accurate recognition of human actions in video is a fascinating capability. The potential applications range from surveillance and robotics to medical diagnosis, content-based video retrieval, and intelligent human-computer interfaces. The task is highly challenging due to the large variations in person appearances, dynamic backgrounds, view-point changes, lighting conditions, action styles and other factors. . . Statistical video representations based on local space-time features have been recently shown successful for action recognition in realistic scenarios. Their success can be attributed to the mild assumptions about the data and robustness to several variations in the video. Such representations, however, often encode videos by disordered collection of low-level primitives. This thesis extends current methods by developing more discriminative features and integrating additional supervision into bag-of-features based video representations, aiming to improve action recognition in unconstrained and challenging video data.