Extraction de la structure physique d'un document imprimé par "rectangulation"
Institution:
Le HavreDisciplines:
Directors:
Abstract EN:
Pas de résumé disponible.
Abstract FR:
L'analyse de document composite et particulièrement l'extraction de sa structure physique font l'objet du travail présenté. C'est une tâche difficile car la qualité des résultats dépend de la position des entités physiques et de leurs natures (texte, graphiques ou photographies). Pour la segmentation, nous avons utilisé une nouvelle approche basée sur une hypothèse qui consiste à considérer une image binaire comme une mosaïque de rectangles noirs et blancs. Cette représentation que nous avons appelé rectangulation consiste à recouvrir une image par des rectangles de dimensions bien définies. L'algorithme d'extraction des rectangles maximaux de type souhaite a été développe. De plus, un algorithme de détection des composantes 4-connexes par projection droite a été exposé. L'étude de la taille et de la repartition des rectangles blancs a permis de resoudre certains problemes de segmentation: le calcul de l'angle de saisie d'une page et la segmentation en blocs par seuillage automatique. De même, les dimensions et la distribution des rectangles noirs recouvrant les formes ont servi à identifier la nature des blocs. La segmentation des blocs de texte jusqu'au mot est realisee par des rectangulations recursives des seuils plus faibles. La mise en uvre d'un nouvel algorithme de detection des composantes 8-connexes a contribue a la separation texte/graphique dans un bloc de type graphique renseigné. Les resultats de ces traitements donnent satisfaction pour des documents composite dont la structure physique n'est pas trop complexe