Knowledge Tree

thesis

Reconstruction de scènes urbaines à l'aide de fusion de données de type GPS, SIG et Vidéo

Defense date:

Jan. 1, 2007

Edit

Institution:

Rennes 1

Disciplines:

Computer sciences

Authors:

Gaël Sourimant

Directors:

Kadi Bouatouch

Abstract EN:

This thesis presents a new scheme for 3D buildings reconstruction, using GPS, GIS and Video datasets. The goal is to refine simple and geo-referenced 3D models of buildings, extracted from a GIS database (Geographic Information System). This refinement is performed thanks to a registration between these models and the video. The GPS provides rough information about the camera location. First, the registration between the video and the 3D models using robust virtual visual servoing is presented. The aim is to find, for each image of the video, the geo-referenced pose of the camera (position and orientation), such as the rendered 3D models projects exactly on the building images in the video. Next, textures of visible buildings are extracted from the video images. A new algorithm for façade texture fusion based on statistical analysis of the texels color is presented. It allows to remove from the final textures all occluding objects in front of the viewed building façades. Finally, a preliminary study on façades geometric details extraction is presented. Knowing the pose of the camera for each image of the video, a disparity computation using either graph-cuts or optical flow is performed in texture space. The micro-structures of the viewed façades can then be recovered using these disparity maps.

Abstract FR:

Cette thèse s'inscrit dans le cadre de la reconstruction tridimensionnelle de zones urbaines, à l'aide de données GPS, SIG et Vidéo. L'objectif est de raffiner des modèles 3D simples et géo-référencés de bâtiments, extraits d'une base SIG (Systèmes d'Information Géographique) en les mettant en correspondance avec des séquences d'images acquises au sol, la position de la caméra étant estimée par GPS. La mise en correspondance des données vidéo et des modèles 3D correspondants par asservissement visuel virtuel robuste est tout d'abord présentée. Le but est ici de retrouver, pour chaque image de la vidéo, la pose géo-référencée précise de la caméra d'acquisition (position et orientation), de telle façon que les modèles 3D se projettent exactement sur les images de bâtiments correspondantes. Les textures des bâtiments visibles dans la vidéo sont alors extraites. Un nouvel algorithme pour la fusion de textures de façades de bâtiments basé sur une analyse statistique de la couleur des texel est présenté. Il permet entre autres la suppression dans la texture finale de tous les objets occultants n'appartenant pas à la façade elle-même. Enfin, nous présentons une étude préliminaire sur l'extraction des détails géométriques de chaque façade. Connaissant les poses de la caméra pour toutes les images, un calcul de disparité par coupe de graphe ou flot optique est effectuée dans l'espace texture. Les micro-structures des façades peuvent alors être retrouvées en utilisant ces cartes de disparité.