Champs aléatoires conditionnels pour l'extraction de structures dans les images de documents
Institution:
RouenDisciplines:
Directors:
Abstract EN:
Pas de résumé disponible.
Abstract FR:
Les travaux réalisées dans cette thèse s'inscrivent dans le cadre du développement d'une chaîne d'analyse automatique des archives du "Journal de Rouen", au sein du projet PlaIR (Plateforme d'Indexaion Régionale). Nos travaux s'appuient sur l'exploitation des modèles de champs aléatoires conditionnels (CAC), des modèles graphiques discriminants particulièrement bien adaptés à la tâche d'extraction d'information qui nous intéresse. Dans une première contribution, nous proposons d'adapter ce modèle au cadre de l'analyse d'images où les descripteurs sont numériques. Une stratégie de quantification multi-échelles de descripteurs numériques est proposée afin d'identifier des entités structurantes dans les journaux. Ces entités sont utilisées par une stratégie de reconstruction des articles. Cette contribution a donné lieu à une intégration dans la chaîne de production de documents pour la plateforme d'indexation PlaIR. La seconde contribution exploite le modèle de champ aléatoire conditionnel pour proposer un schéma d'apprentissage générique de combinaison d'experts permettant de réaliser des tâches plus complexes d'extraction d'information dans les images de documents. Un couplage bi-dimensionnel de champs aléatoires conditionnels est proposé. Ce schéma est appliqué avec succès à l'extraction des zones textuelles et graphiques dans des images de documents contemporains ainsi que sur une tâche de binarisation de documents dégradés. Les expériences réalisées montrent que le modèle de couplage bidimensionnel de champs aléatoires conditionnels proposé peut constituer un opérateur de combinaison spatialisée d'experts tout à fait pertinent et générique.