Optimisation de modèles markoviens pour la reconnaissance de l'écrit
Institution:
RouenDisciplines:
Directors:
Abstract EN:
Pas de résumé disponible.
Abstract FR:
Cette thèse traite de l'optimisation de modèles markoviens dédiés à la reconnaissance de textes manuscrits, dans le cas particulier d'une application à vocabulaire réduit : la lecture des montants littéraux de chèques. Le premier chapitre décrit brièvement les techniques utilisées pour la reconnaissance de l'écrit. Nous présentons également les descriptions des mots que nous avons utilisées. Le second chapitre présente les modèles de Markov cache. Nous présentons notamment les différents niveaux de représentation du problème de la lecture de l'écrit dans le cas de modélisations markoviennes : les niveaux phrase, mot et lettre. Finalement, nous présentons les algorithmes couramment utilisés pour exploiter des modèles de Markov : les algorithmes de Viterbi et de Baum-welch, avec des variantes que nous avons adaptées à nos besoins. Dans le troisième chapitre, nous traitons du problème d'une optimisation des descriptions des mots. Nous donnons trois méthodes de représentation des mots. Nous présentons ensuite une méthode de recherche de l'ordre optimal d'un processus de Markov basée sur la minimisation de critères d'information de type Akaike soit AIC, BIC etc. Finalement, nous comparons les résultats des trois alphabets pour les ordres de 1 à 3. Ceci nous permet de valider le choix de la description des mots et de l'ordre du modèle de Markov correspondant. Nous réutilisons ces résultats au chapitre 4. Dans ce chapitre, trois approches sont proposées pour la reconnaissance des mots : la première est une approche globale qui par définition ne s'attache pas à l'identification des lettres, la seconde est une approche analytique basée sur une modélisation complètement explicitée, la troisième méthode est une approche pseudo-analytique intermédiaire entre les deux approches précédentes. Elle modélise le mot de manière analytique en utilisant des modèles globaux de lettres. Finalement, les résultats de ces trois méthodes sont ensuite fusionnés : chapitre 5. Ce chapitre traite de l'identification des montants littéraux de chèques. La stratégie développée se décompose en trois parties : validation de la segmentation des mots, identification des mots et reconstitution de la phrase. A chaque partie correspond une modélisation markovienne adaptée.