thesis

Conception d'un langage de description de strutures tabulaires et du système de reconnaissance associé : Application aux tableaux dans les documents d'archives

Defense date:

Jan. 1, 2009

Edit

Institution:

Rennes, INSA

Disciplines:

Authors:

Directors:

Abstract EN:

ANowadays, a mass digitization of documents gives access to a large quantity of documents. To give better access to the information in some of these documents, we focus on the recognition of a structured document class, tables. This dissertation presents a table description language linked to a recognition system This simple and intuitive language enables to describe complex and variable table structures as well as more precise descriptions to allow the analyzer compensate for lacking information, and to better absorb noise. To design this analyzer and the use of information from the descriptions, we propose an internal representation and introduce the concept of final intersections. These intersections help to characterize table structures. To validate our system, we present results on very variable table structures and on over 50,000 old documents.

Abstract FR:

De nos jours une numérisation en masse de documents permet une large diffusion de ceux-ci. Pour faciliter l’accès aux informations contenues dans certains de ces documents, nous nous intéressons à la reconnaissance d’une classe de documents structurés, les tableaux. Cette thèse présente un langage de description de tableaux associé à un système de reconnaissance. Ce langage simple et intuitif permet de décrire des descriptions de structures tabulaires complexes et variables ainsi que des descriptions plus précises. Celles-ci permettent à l’analyseur de compenser les informations manquantes et d’absorber le bruit Pour concevoir l’analyseur et l’utilisation des informations des descriptions, nous proposons une représentation interne et introduisons le concept d’intersections finales. Celles-ci aident à caractériser la structure des tableaux. Pour valider notre système, nous présentons des résultats sur des structures de tableaux très variées et sur plus de 50 000 documents d’archives.