Contribution à la numérisation des collections : apports des contours actifs
Institution:
Lyon, INSADisciplines:
Directors:
Abstract EN:
The aim of this work is the reverse-engineering (or dematerialization) of particular printed documents coming from the Archives of Savoy. This task consists in converting the original paper documents into a special format that takes into account the metadata included in the images. The methods developed since then in the 1980's gave birth to a particular field of research called Document Engineering. Image Processing appeared at the same time, but the both disciplines never met. One of the aims of this work is to make them coexist, seeking in image processing for generic clues to solve classical problems in Document Engineering. This is why we developed analyzing tools at various levels: by proposing a method for the functional labeling of text blacks (based on texture caracterisation) and by proposing a method for the reconstruction of degraded character shapes (that is as compliant to the original characters as possible). This work opens more generally to the develOQJ2ement of specific image processing tools 12articluarly addressed to document images
Abstract FR:
L'objectif de ce travail de thèse est la rétro-conversion (ou dématérialisation) de documents imprimés particuliers : les inventaires-sommaires des Archives Départementales de Savoie. Par dématérialisation, nous désignons le procédé qui permet de passer des documents papier à leur version numérisée exploitable, c'est-à-dire dans un format mettant en évidence les métadonnées qu'ils contiennent. Les méthodes pour y parvenir ont donné naissance, il y a une vingtaine d'années, en même temps qu'apparaissait le traitement des images, au domaine particulier de l'Analyse et Reconnaissance du Document (ARD) ; les deux disciplines suivent depuis des chemins parallèles. Une des originalités de cette thèse est de les faire cohabiter, en cherchant dans le traitement des images des solutions génériques à des problèmes types du document. C'est ce que nous avons fait en développant des outils d'analyse à différents niveaux : une méthode pour l'étiquetage fonctionnel des blocs de texte par une analyse globale de texture et une méthode pour la reconstruction de caractères dégradés qui permet de rester le plus fidèle possible aux caractères originaux. Cette thèse s'ouvre plus généralement sur la possibilité d'élaborer une imagerie spécifique adaptée aux problèmes types du document.