Etude des Documents Imprimés : Approche Statistique et Contribution Méthodologique
Institution:
Lyon, INSADisciplines:
Directors:
Abstract EN:
This thesis turns on the study of the structuring of the documents containing `` rich and recurrent typography''. We mainly worked on images of documents corresponding to extracts of inventory-synopses from Archives of départements of Charente-Maritime and Savoy. We proposed a segmentation process to retrieve the layout structure of these pages. We also developed an approach based on hidden Markov models for the logical recognition. In parallel of these applicative contributions, we carried out two more fundamental reflections. The first one is related to the study of the characteristics used for the description of the regions of interest (physical entities) in document images. The second one was devoted to the development of a method of classification resting on a selective training. Among the many applications of this algorithm, it is the advisability of carrying out a character recognition task which justified its development.
Abstract FR:
Cette thèse s'attache à l'étude de la structuration des documents dits à "typographie riche et récurrente''. Nous avons principalement travaillé sur des images de documents correspondant à des extraits d'inventaires-sommaires des Archives Départementales de Charente-Maritime et de Savoie. Nous avons proposé un procédé de segmentation qui permet d'inférer la structure physique de ces pages. Nous avons aussi développé une approche basée sur les modèles de Markov cachés pour la reconnaissance de la structure logique. En parallèle de ces avancées applicatives, nous avons mené deux réflexions plus fondamentales. La première a porté sur l'étude des caractéristiques utilisées pour la description des régions d'intérêt (entités physiques) des images de documents. La seconde a été consacrée à la mise au point d'une méthode de classification reposant sur un apprentissage sélectif. Parmi les nombreuses applications de cet algorithme, c'est l'opportunité d'effectuer une reconnaissance de caractères qui a motivé son développement.