Incremental learning of events in video using reliable information
Institution:
NiceDisciplines:
Directors:
Abstract EN:
The goal of this thesis is to propose a general video understanding framework for learning and recognition of events occurring in videos, for real world applications. This video understanding frameworks is composed of four tasks : first, at each video frame, a segmentation task detects the moving regions, represented by bounding boxes enclosing them. Second, a new 3D classifier associates to each moving region an object class label (e. G. Person, vehicle) and a 3D parallelepiped described by its width, height, length, position, orientation, and visual reliability measures of these attributes. Third, a new multi-object tracking algorithm uses these object descriptions to generate tracking hypotheses about the objects evolving in the scene. Finally, a new incremental event learning algorithm aggregates on-line the attributes and reliability information of the tracked objects to learn a hierarchy of concepts describing the events occurring in the scene. Reliability measures are used to focus the learning process on the most valuable information. Simultaneously, the event learning approach recognizes the events associated to the objects evolving in the scene. The tracking approach has been validated using video-surveillance benchmarks publicly accessible. The complete video understanding framework has been evaluated with videos for a real elderly care application. The framework has been able to successfully learn events related to trajectory (e. G. Change in 3D position and velocity), posture (e. G. Standing up, crouching), and object interaction (e. G. Person approaching to a table), among other events, with a minimal configuration effort.
Abstract FR:
L’objectif de cette thèse est de proposer une approche générale de compréhension de vidéo pour l’apprentissage et la reconnaissance d’événements, dans des applications du monde réel. L’approche est composée de quatre tˆaches : En premier lieu, pour chaque frame de la vidéo, une tâche de segmentation consiste à détecter les régions mobiles, lesquelles sont représentées par des boîtes englobantes qui les délimitent. En second lieu, une nouvelle méthode de classification 3D associe à chaque région mobile un label de la classe d’objet (par exemple, personne, voiture) et un parallélépipède 3D décrit par sa largeur, sa hauteur, sa longueur, sa position, son orientation, et des mesures de fiabilité associées à ces attributs. En troisième lieu, une nouvelle approche de suivi d’objets multiples utilise ces descriptions d’objet pour générer des hypothèses de suivi par rapport aux objets évoluant dans la scène. Des mesures de fiabilité associées aux attributs des objets suivis sont utilisées pour faire une sélection appropriée d’information pertinente. En dernier lieu, une nouvelle approche d’apprentissage incrémental d’événements agrège en ligne les attributs et l’information de fiabilité des objets suivis afin d’apprendre des concepts qui décrivent les événements se déroulant dans la scène. Des mesures de fiabilité sont utilisées pour focaliser le processus d’apprentissage sur l’information la plus pertinente. Simultanément, l’approche d’apprentissage d’événements reconnaît des événements associés aux objets suivis dans la scène. L’approche de suivi d’objets a été validée en utilisant des benchmarks de videosurveillance libres d’accès. L’approche complète de compréhension de vidéo a été évaluée en utilisant des vidéos obtenues d’une application réelle de maintien de personnes âgées à domicile. L’approche a été capable d’apprendre avec succès des événements associés aux trajectoires (e. G. Le changement dans la position 3D et la vitesse), la posture (e. G. Se lever, s’accroupir), et l’interaction entre objets (e. G. Une personne s’approchant d’une table), parmi d’autres événements, avec un effort minimal de configuration.