Scalable Content-Based Video Copy Detection for Stream Monitoring and Video Mining
Institution:
Paris, CNAMDisciplines:
Directors:
Abstract EN:
Le paysage vidéo a récemment été profondément bouleversé par de nombreuses innovations technologiques. Les méthodes et acteurs de la distribution et de la production vidéo ont notamment fortement évolués. Le nombre de canaux de diffusion télévisuels augmente continuellement et parallèlement Internet supporte de nombreux sites communautaires et blogs comportant de la vidéo. Les utilisateurs finaux sont devenus eux-mêmes auteurs et créateurs, le volume qu'ils génèrent concurrence largement celui produit par les professionnels. On peut aussi noter que les logiciels d'édition vidéo sont aujourd'hui grand public et que la personnalisation de contenus est simple et très en vogue. Les professionnels aussi réutilisent largement de vieux contenus pour faire du neuf. Une conséquence directe est l'augmentation croissante du nombre de copies diffusées et hébergées sur les réseaux. L'existence de ces copies soulèvent le problème de la protection des droits. Un ayant droit peut exprimer légitimement le besoin d'être rémunéré si un oeuvre lui appartenant est diffusé sur une chaîne. L'INA est chargé d'accomplir cette tâche en France et donc de surveiller les différents canaux pour noter ces rediffusions. Le challenge tient aux volumes à protéger et à surveiller. Le nombre d'heures numérisées est de l'ordre du demi million et le nombre de canaux de la centaine. Les documentalistes ne peuvent gérer une telle connaissance ni un tel afflux. Un pré travail automatique par ordinateur est obligatoire: un système de surveillance vidéo par le contenu. Celui-ci est chargé de lire les flux vidéos diffusés et de décider si dans ces flux apparaissent des vidéos issues de la base référence à protéger. La détection par le contenu signifie l'utilisation du signal vidéo pour faire cette reconnaissance. Les vidéos représentent de gros volumes de données, et l'exploitation du signal complet n'est pas envisageable. Par conséquent on résume les vidéos par des descripteurs, sorte de quantificateurs du signal. Le problème de la surveillance repose alors sur la recherche de descripteurs dans une base de descripteurs de référence. Ces bases contiennent des milliards de descripteurs qui sont des vecteurs de moyenne ou grande dimension (20 à quelques centaines). Un tel système pour être viable demande alors un système d'indexation des descripteurs pour effectuer des recherches rapides. Après cette recherche un processus prend la décision en utilisant les descripteurs issus de la recherche. Dans cette thèse nous présentons un nouveau schéma d'indexation, appelé Zgrid, pour faire la recherche rapide. Ce schéma permet de faire une recherche approximative. Nous l'avons amélioré par des analyses de distribution des données dans l'espace de description. Par ailleurs nous proposons un nouveau modèle des distortions subies par les descripteurs lors des processus de copies et un modèle de densité locale pour corriger la recherche, celle-ci est alors plus sélective et moins consommatrice de temps. L'utilisation croisée de ces différentes propositions permet de suivre en temps réel différé un flux vidéo et de le comparer à une base de référence de 280,000 heures de vidéo avec un simple PC. L'existence de nombreuses copies peut aussi présenter des avantages. La détection des différentes occurrences d'un même contenu peut permettre par exemple de mutualiser des annotations ou d'aider à la navigation dans les bases vidéos. Le problème prend alors une autre dimension avec une complexité quadratique: on doit rechercher l'ensemble des descripteurs d'une base sur cette même base, ce qu'on appelle communément une auto jointure par similarité. Pour réduire la complexité de cette tâche nous proposons ici un nouveau descripteur dit Glocal qui utilise des descripteurs locaux pour construire un descripteur global au niveau de l'image. Ce changement de niveau permet par ailleurs de réduire aussi la complexité du processus de décision finale. Nous proposons aussi un nouveau système d'indexation adapté à l'auto jointure par similarité et à ce descripteur. La réduction globale des temps de calculs permet de trouver les occurrences dans une base de 10,000 heures avec un simple PC mais aussi de trouver ces occurrences dans une petite base (moins de 100 heures) en 30 secondes. On peut ainsi envisager des applications « off-line » pour les administrateurs de site vidéos et « online » pour les utilisateurs.
Abstract FR:
This thesis essentially adresses the scability of the indexong methods of vectorial databases. The applications concern the similarity-based search of video descriptors in large volumes in order to perform content-based copy detection. On one hand we want to perform an online monitoring of a video stream on a reference database, containing here 280000 hours of video, which means 17 billions of descriptors. The proposed solution is based on a new indexing and probalistic searching method based on a Zgrid, but also on a distorsion of the video descriptors and on a local density model. The goal is to perform a more selective and so faster similarity search. Here we can handle the monitoring of one video stream on the 280000 hours database in a differed real time with a single standard PC. On the other hand we want to detect the occurences of the videos in a such a large database. The problem become quadratic, here a similarity self join of the descriptor database must be performed. Here we propose a new global description of the frames based on a local descriptions to reduce complexity while conserving a good tobustness. We also propose an indexing scheme apated to this task which presents moreover an easily parrallel scheme in order to mine the previously announced volumes. Our tests have been performed on dtabases containing up to 10000 hours of video in 80 hours with a single standard PC