thesis

Analyse d’images de documents anciens : une approche texture

Defense date:

Jan. 1, 2006

Edit

Institution:

La Rochelle

Disciplines:

Directors:

Abstract EN:

Mes travaux de thèse sont liés à la problématique de l'indexation de grosses quantités d'images de documents anciens. Ils visent à traiter un corpus de documents dont le contenu (texte et image) ainsi que la mise en page se trouvent être fortement variables (l'ensemble des ouvrages d'une bibliothèque par exemple). Ainsi, il n'est donc pas envisageable de travailler sur ce corpus tel qu'on le fait habituellement avec les documents contemporains. En effet, les premiers tests que nous avons effectués sur le corpus du Centre d'Etudes Supérieures de la Renaissance de Tours, avec qui nous travaillons, ont confirmé que les approches classiques (guidée par le modèle) sont peu efficaces car il est impossible d'émettre des hypothèses sur la structure physique ou logique des documents traités. . Nous avons également constaté le manque d'outils permettant l'indexation de grandes bases d'images de documents anciens Face à ce double constat, ces travaux de thèse nous ont amené à proposer une méthode de caractérisation du contenu d'images de documents anciens. Cette caractérisation est réalisée à l'aide d'une étude multirésolution des textures contenues dans les images de document. Ainsi, en extrayant des signatures liées aux fréquences et aux orientations des différentes parties d'une page, il est possible d'extraire, de comparer ou encore d'identifier des éléments de haut niveau sémantique (lettrines, illustrations, texte, mise en page. . . ) sans émettre d'hypothèses sur la structure physique ou logique des documents analysés. Ces indices textures ont permis la création d'outils d'aide à l'indexation de grosses bases d'images de documents anciens.

Abstract FR:

My phd thesis subject is related to the topic of old documents images indexation. The corpus of old documents has specific characteristics. The content (text and image) as well as the layout information are strongly variable. Thus, it is not possible to work on this corpus such as it usually done with contemporary documents. Indeed, the first tests which we realised on the corpus of the “Centre d’Etude de la Renaissance”, with which we work, confirmed that the traditional approaches (driven –model approaches) are not very efficient because it’s impossible to put assumptions on the physical or logical structure of the old documents. We also noted the lack of tools allowing the indexing of large old documents images databases. In this phd work, we propose a new generic method which permits characterization of the contents of old documents images. This characterization is carried out using a multirésolution study of the textures contained in the images of documents. By constructing signatures related with the frequencies and the orientations of the various parts of a page it is possible to extract, compare or to identify different kind of semantic elements (reference letters, illustrations, text, layout. . . ) without making any assumptions about the physical or logical structure of the analyzed documents. These textures information are at the origin of creation of indexing tools for large databases of old documents images.