thesis

Introduction de la vision perceptive pour la reconnaissance de la structure de documents

Defense date:

Jan. 1, 2008

Edit

Institution:

Rennes, INSA

Disciplines:

Directors:

Abstract EN:

Human perceptive vision combines several levels of perception in order to simplify the interpretation of a scene. It is represented by physiologists as a perceptive cycle guided by visual attention. We propose to use this principle for the recognition of images of old and handwritten documents. Thus, we propose a generic architecture, DMOS-P, that makes it possible to specify mechanisms of perceptive cooperation that makes easier the description and improve the recognition of the structure of documents. In the applications, we show a prediction/verification mechanism: the low resolution vision provides hypotheses on the structure, using the global context; these hypotheses are then verified at a higher resolution. We validated this approach on various kinds of documents (handwritten incoming mails, archive registers, newspapers…) and at a large scale (more than 80,000 images).

Abstract FR:

La vision perceptive humaine combine différents niveaux de perception pour faciliter l'interprétation d'une scène. Les physiologistes la modélisent par le cycle perceptif, guidé par un facteur psychologique, l'attention visuelle. Nous proposons d'utiliser ce principe pour la reconnaissance d'images de documents anciens et manuscrits. Ainsi, nous proposons une architecture générique, DMOS-P, permettant de spécifier des mécanismes de coopération perceptive qui facilitent la description et améliorent la reconnaissance de la structure de documents. Dans les applications, nous mettons en évidence un mécanisme de prédiction/vérification : la vision à basse résolution permet d'émettre des hypothèses sur la structure en utilisant le contexte global, qui ces hypothèses sont ensuite vérifiées à plus haute résolution. Nous avons validé cette approche sur des documents à structure variée (courriers manuscrits, registres d'archives, presse…) et à grande échelle (plus de 80 000 images).