thesis

Catégorisation automatique de documents manuscrits : Application aux courriers entrants

Defense date:

Jan. 1, 2006

Edit

Institution:

Rouen

Disciplines:

Authors:

Directors:

Abstract EN:

The work described in this document deals with the design, the development and the evaluation of a system of categorization of unconstrained handwritten documents such as handwritten incoming mails. We demonstrate that a system developed for electronic document categorization can be adapted for handwritten document categorization.

Abstract FR:

Les travaux présentés concernent la spécification, le développement et l’évaluation d’un système de catégorisation de documents manuscrits faiblement contraints tels que des courriers entrants. Nous démontrons qu’un système développé pour la catégorisation de documents électroniques peut être adapté à la catégorisation de documents manuscrits. Afin d’extraire les seuls mots clés nécessaires à la catégorisation, nous avons mis en place un système d’extraction de mots clés dans les documents manuscrits. Ce système d’extraction est appliqué sur chaque ligne de texte et fait appel à un moteur de reconnaissance de mots manuscrits isolés afin de réaliser conjointement la segmentation de mots et leur reconnaissance. L’intégration d’un modèle de rejet dans le système permet de prendre en compte les éléments hors-lexique lors de la reconnaissance de la ligne. Nous démontrons que malgré les performances en extraction de mots clés très en-dessous de celles des OCR, les performances en catégorisation de documents manuscrits ne sont que très peu dégradées.