Toward robust information extraction models for multimedia documents
Institution:
Rennes, INSADisciplines:
Directors:
Abstract EN:
Due to the huge amounts of multimedia documents that have been generated, researchers studied approaches to manage them. Our goal is to facilitate this process by extracting information from any text related to such documents. Moreover, we want techniques robust enough to handle noisy and small data. We use simple and nowledge-light techniques as a guarantee of robustness. Indeed, we use statistical analysis of text and some techniques inspired from Information Retrieval. In this thesis, we experimentally show that simple techniques without a priori knowledge can be useful to effectively extract information from text. In our case, such results have indeed been achieved by choosing suited representation for the data instead of requiring complex processings.
Abstract FR:
L'énorme quantité de documents multimédias constamment générés incite au développement de méthodes d'analyse automatique. Dans ce cadre, notre objectif est de faciliter ce processus en extrayant des informations à partir de n'importe quel texte relatif à ces documents. En outre, nous voulons des techniques suffisamment robustes pour traiter des données bruitées et de petite taille. Pour ce faire, nous utilisons des techniques simples nécessitant peu de connaissances externes comme une garantie de robustesse. Plus précisément, nous utilisons des techniques inspirées de la recherche d'information et de l'analyse statistique. Dans cette thèse, nous montrons expérimentalement que des techniques simples, sans connaissance a priori peuvent être utiles pour extraire efficacement les informations à partir du texte. Dans notre cas, ces bons résultats ont été obtenus en choisissant une représentation adaptée pour les données au lieu d'exiger de traitements complexes.