Techniques spatiales pour la compréhension vidéo
Institution:
Université Grenoble AlpesDisciplines:
Directors:
Abstract EN:
Video is a rich source of visual information that had pervaded almost every aspect of modern life and being able to interpret it translates to capturing the many aspects of the real world phenomena. This dissertation explores two related topics pertaining to video understanding: action recognition and action detection. We aim to recognize as well as separate out the boundaries of action categories present in realistic video content.The introduction of deep learning has had a major effect on the progress of video understanding techniques and has established remarkably effective 3D CNNs as the main method of processing the video. These networks are powerful tools that require extensive computational resources and large amounts of training data to employ. We aim to apply these models in the most effective way possible by accounting for the pipeline around them: the preprocessing steps, the data they are trained on and the way they are employed. We find that taking a holistic view helps the CNN-based methods to better achieve the video understanding tasks.In the first part of this thesis we address the problem of the limited spatial detail of the 3D CNNs. We present a way of prioritizing the use of the computational resources to the regions where they are more useful by retrieving the "interesting" regions of the video in the resolution. This is performed by an attention mechanism that goes back through the preprocessing steps to access the original video, driven by the saliency signal from the network which can be efficiently computed during training. We perform experiments on the Charades dataset and show a clear benefit of the proposed approach.In the second part we deal with the spatio-temporal action detection. The spatial extend of the actions can only feasibly be annotated in the subset of keyframes that have the temporal annotations. Majority of the approaches either deal solely with the keyframes or predict intermediate annotations by tracking human detections. We propose a method of utilizing the annotations beyond the keyframes,while accounting for their variable reliability. We also propose a solution for the loss of the global spatial context caused by the RoI-pooling layer that is commonly employed as a way of spatially conditioning the detections. We experimentally validate the proposed techniques on the DALY spatio-temporal detection dataset and show the state of the art results.In both cases we conduct experiments on real-world videos from challenging benchmarks and show that success of the video understanding methods depends on both the powerful 3D CNN networks and on the careful management of the machinery surrounding them.
Abstract FR:
La vidéo est une riche source d'informations visuelles qui a imprégné presque tous les aspects de la vie moderne et être capable de l'interpréter se traduit par la capture des nombreux aspects des phénomènes du monde réel. Cette thèse explore deux sujets connexes relatifs à la compréhension de la vidéo: la reconnaissance d'action et la détection d'action. Nous visons à reconnaître et à séparer les limites des catégories d'actions présentes dans un contenu vidéo réaliste.L'introduction de "deep learning" a eu un effet majeur sur les progrès des techniques de compréhension vidéo et a établi des 3D CNNs remarquablement efficaces comme méthode principale de traitement de la vidéo. Ces réseaux sont des outils puissants qui nécessitent des ressources de calcul étendues et de grandes quantités de données de formation à utiliser. Nous visons à appliquer ces modèles de la manière la plus efficace possible en tenant compte du pipeline qui les entoure: les étapes de prétraitement, les données sur lesquelles ils sont formés et la manière dont ils sont utilisés. Nous constatons que l'adoption d'une vue holistique aide les méthodes basées sur CNN à mieux réaliser les tâches de compréhension vidéo.Dans la première partie de cette thèse, nous abordons le problème du détail spatial limité des 3D CNNs. Nous présentons une manière de prioriser l'utilisation des ressources de calcul aux régions où elles sont les plus utiles en récupérant les régions «intéressantes» de la vidéo dans la résolution. Ceci est effectué par un mécanisme d'attention qui remonte par les étapes de prétraitement pour accéder à la vidéo originale, piloté par le signal de saillance du réseau qui peut être calculé efficacement pendant l'apprentissage. Nous effectuons des expériences sur Charades dataset et montrons un avantage clair de l'approche proposée.Dans la deuxième partie, nous traitons de la détection d'action spatio-temporelle. L'étendue spatiale des actions ne peut être annotée que dans le sous-ensemble d'images clés contenant les annotations temporelles. La majorité des approches traitent uniquement des images clés ou prédisent des annotations intermédiaires en suivant les détections humaines. Nous proposons une méthode d'utilisation des annotations au-delà des images clés, tout en tenant compte de leur fiabilité variable. Nous proposons également une solution pour la perte du contexte spatial global causée par la couche de RoI-pooling qui est couramment employée comme moyen de conditionner spatialement les détections. Nous validons expérimentalement les techniques proposées sur le dataset de détection spatio-temporelle DALY et montrons l'état de l'art des résultats.Dans les deux cas, nous menons des expériences sur des vidéos du monde réel à partir de benchmarks difficiles et montrons que le succès des méthodes de compréhension vidéo dépend à la fois des puissants réseaux CNN 3D et de la gestion prudente des machines qui les entourent.