thesis

Contribution à la lecture de documents papier manuscrits : reconnaissance des champs numériques et cursifs par méthodes neuronales et markoviennes

Defense date:

Jan. 1, 1998

Edit

Institution:

Paris, ENST

Disciplines:

Authors:

Abstract EN:

Pas de résumé disponible.

Abstract FR:

Cette thèse est consacrée à la reconnaissance de documents papier manuscrits dans le contexte particulier de la lecture automatique des entêtes de télécopie. Ces entêtes portent deux principaux types d'informations : des champs numériques (numéros de téléphone et numéros de télécopie) et des champs cursifs (nom du destinataire et de l'expéditeur). Deux stratégies différentes ont été élaborées pour traiter ces deux types d'information. Le système de reconnaissance de numéros de téléphone se compose de modules de segmentation simples supervises par un gestionnaire. Celui-ci propose des retours sur la segmentation en fonction du résultat du module de reconnaissance. La reconnaissance et le rejet sont réalisés par des réseaux de neurones. Le système neuronal prédictif pour la reconnaissance hors-ligne de mots est base sur un modelé de markov cache (hmm) hybride. Le modelé de markov de mot est constitué par l'agencement des hmms des lettres composant ce mot. En effectuant un balayage gauche-droite sur l'image du mot et de par la nature gauche-droite du hmm, des morceaux successifs de l'image sont modélises par différents réseaux de neurones multicouches. Au cours de l'apprentissage, une segmentation dynamique de l'image du mot présente est utilisée pour entrainer les réseaux de neurones présents dans chaque hmm de lettre. La reconnaissance est effectuée par segmentation adaptative dans le cadre d'une compétition entre les modelés de lettre. Une méthode de présélection du lexique permet de réduire considérablement la dimension de celui-ci et ainsi d'accélérer la reconnaissance. Les différents aspects de l'étude présentée sont approfondis tant sur le plan bibliographique que sur le plan algorithmique. Ils ont conduit à la mise au point de méthodes de reconnaissance robustes qui ont été validées expérimentalement sur nos bases de données, correspondant à des performances satisfaisantes, montrant par-là l'intérêt de nos approches.