Detecting and indexing moving objects for behavior analysis by video and audio interpretation
Institution:
CaenDisciplines:
Directors:
Abstract EN:
In the last decades we have assisted to a growing need for security in many public environments. The main limitation of this traditional audio-video surveillance systems lies in the so called psychological overcharge issue of the human operators responsible for security, that causes a decrease in their capabilities to analyse raw data flows from multiple sources of multimedia information. For the above mentioned reasons, in this thesis we propose an intelligent surveillance system able to provide images and video with a semantic interpretation, for trying to bridge the gap between their low-level representation in terms of pixels, and the high-level, natural language description that a human would give about them. In particular, the proposed framework starts by analysing the videos and by extracting the trajectories of the objects populating the scene. Once extracted, this large amount of trajectories needs to be indexed and properly stored in order to improve the overall performance of the system during the retrieving. Furthermore, the human operator is informed as soon as an abnormal behaviour occurs. Whereas the information extracted from the videos are not sufficient or not sufficiently reliable, the proposed system in enriched by a module in charge of recognizing audio events, such as shoots, screams or broken glasses. Each proposed module has been tested both over standard datasets and in real environments; the promising obtained results confirm the advance with respect to the state of the art, as well as the applicability of the proposed method in real scenarios.
Abstract FR:
Dans les dernières décennies, nous avons été témoin d'un besoin grandissant de sécurité dans les espaces publics. La limitation principale induite par les systèmes de vidéo surveillance réside dans la surcharge cognitive des opérateurs humains chargés de la sécurité, ce qui diminue leur capacités à analyser le flux d'information émanant de sources multimédia multiples. Pour ces raisons, nous proposons dans cette thèse un système de surveillance intelligent capable d'associer des images et des vidéos à une interprétation sémantique afin de faire le lien entre des représentations bas niveau, sous forme de pixels, et le haut niveau correspondant à une description en langage naturel qu'un être humain pourrait faire d'une scène. Plus précisément, les travaux proposés débutent par l'analyse des vidéos et par l'extraction des trajectoires des objets présents dans la scène. Une fois extraites, ce grand nombre de trajectoires doit être indexé et stocké afin d'augmenter la performance du système durant la phase de reconnaissance. En outre, l'opérateur humain est informé immédiatement si un comportement anormal est observé. Tandis que l'information extraite des vidéos n'est pas suffisante ou n'est pas suffisamment fiable, le système proposé est enrichi par un module en charge de la reconnaissance des événements sonores tels que des tirs, des cris ou des vitres cassées. Chaque module proposé a été à la fois testé sur des jeux de données standards mais aussi dans un environnement réel ; les résultats obtenus, tout comme l'application des méthodes proposées dans un contexte réel, permettent de confirmer la contribution de nos travaux à l'état de l'art.