Knowledge Tree

thesis

Contribution à la structuration fonctionnelle des documents imprimés : exploitation de la dynamique du regard dans le repérage de l'information

Defense date:

Jan. 1, 1998

Edit

Institution:

Lyon, INSA

Disciplines:

Computer sciences

Authors:

Véronique Eglin

Directors:

Hubert Emptoz

Abstract EN:

This work is a contribution to automatic document analysis and is based on two main themes independent on first sight: the document segmentation and the human visual perception. More specifically, it develops a methodology of document layout analysis by the exploitation of eye catching information. The reconstruction of document layout in homogeneous blacks and the retrieval of their physical properties are realized by the analysis of our visual system. This exploration is described by a scan-path, which selects alternately areas. Their location depends on the observer’s purposes and the visual characteristics of the document. In this work, we chose to simulate a particular kind of scan-paths on the documents. This scan-path expresses the segmentation of an observer, who scans a document without any prior knowledge on what should be found. The treatments are shared in two main phases. The first law-levet stage consists in analyzing geometrical properties of regions outlines. That leads to a fast selection of interest areas and results in a first sketch of physical document segmentation. The second high-level stage is based on the analysis of macroscopic features of texts, which are directly connected to standard typographic rules (arrangement and frequency of characters, type-font farnilies, boldness, language. . . ), but also significant of the editor's intention, This stage leads to a first classification of different type-font farnilies of text blacks. Thus, it improves the previous low-level processes by using textural properties of regions. Finally, we propose a validation step of this work, which is realized by oculometric measurements on human observers.

Abstract FR:

Cette thèse s'inscrit dans le domaine de l'analyse automatique d'images de documents imprimés et repose sur deux grandes thématiques à première vue sans lien, que sont la segmentation de documents et la perception visuelle humaine. Plus spécifiquement, elle développe une méthodologie de structuration de documents composites par la capture d'informations à fort pouvoir attractif. La détermination de la structure des documents en blocs homogènes et la récupération des propriétés nécessaires à leur reconnaissance se réalisent par 1' exploitation de notre mode de perception visuelle. Cette exploration est décrite par le parcours du regard, privilégiant tour à tour des zones dont la localisation ne dépend pas d'un balayage uniforme, mais d'une intention de l'observateur et des caractéristiques visuelles du document. La simulation du parcours de 1' œil sur le document que nous avons retenue traduit la segmentation que ferait un lecteur qui aborde le document sans a priori sur ce qu'il veut trouver. Les traitements se découpent en deux phases principales. La première étape, de bas niveau, est basée sur l'analyse multirésolution des propriétés géométriques des contours des régions. Elle permet une sélection rapide des zones d'intérêt et aboutit à une esquisse de structuration physique du document. La deuxième étape, de plus haut niveau, exploite les caractéristiques macroscopiques des textes liées à des conventions typographiques standards (disposition et fréquence d'apparition des lettres, police, graisse, langue. . . ), mais également significatives d'une volonté du rédacteur. Elle permet une première classification des différents types de fontes des blocs de texte. Elle constitue une amélioration des procédures de bas niveau en ajoutant une information de texture à la base de la reconnaissance des blocs. Nous proposons finalement une phase de validation de ces travaux réalisée à partir de la prise de mesures oculométriques expérimentales (sur des observateurs humains).