Conversion automatique de documents numériques vers XML
Institution:
ChambéryDisciplines:
Directors:
Abstract EN:
At this time, the request for automatic legacy documents conversion tools is growing in the field of information technology and document engineering. The problem faced by these companies is the migration of huge volume of documents from proprietary format towards a more promising open format, XML formalism. Conversion is a difficult task due to some industrial constraints such as the heterogeneity of documents or the large number of documents to convert. The LegDoc project, conducted at XRCE, deals with the creation of tools that will simplify this task and minimize human interventions. Ln this report, we describe one module of this project, the semantic annotator. The main idea is to use a set of training examples and a set of grammatical constraints to learn a conversion model. Semantic constraints are expressed by the means of an XML grammar. Once learned, the model may be applied on the whole legacy document collection to automatically produce the conversion and produce goal documents. The main problem is a tree to tree conversion. Our approach is splitted into two distinct processes. The first one consists in annotating the leaves of the input document. The second one is based on the annotating sequence of leaves and on the grammar to produce the desired output tree. This work allows us to experiment a sequential approach where the two processes are applied one after the other, and a joint approach where the annotation and the generation are done at the same time. This joint vision is the main contribution of our work. We have evaluated a whole bunch of methods on several collections and have proved that our techniques are usable in real life collections.
Abstract FR:
Il existe dans le domaine des technologies de l'information et de l'ingénierie documentaire une demande grandissante pour la conversion automatique de fonds documentaires. Le problème auquel sont confrontées ces entreprises est la migration d'une grande quantité de documents d'un format propriétaire vers un format plus ouvert, le formalisme XML. La tâche de conversion est rendue difficile par plusieurs facteurs dont la grande hétérogénéité des documents et le volume important de documents à traiter. Le projet LegDoC mené au centre de recherche européen XRCE a pour but de créer des outils qui permettent de simplifier la conversion et de minimiser les interventions manuelles. Nous détaillons dans ce rapport un des composants de ce projet, le module d'annotation sémantique. L'idée générale est d'utiliser un ensemble d'exemples de conversion et un ensemble de contraintes sémantiques pour apprendre un modèle de conversion. Les contraintes sémantiques sont exprimées sous la forme de grammaires XML. Une fois appris, le modèle de conversion peut être appliqué sur l'ensemble des documents du fonds documentaire pour effectuer automatiquement la conversion et produire les documents souhaités. Nous nous plaçons dans un cadre de conversion d'arbres à arbres. L'approche que nous présentons se décompose en deux traitements distincts. Le premier consiste à annoter les feuilles du document d'origine. Le deuxième traitement se base sur la séquence de feuilles annotées et sur la grammaire pour générer l'arbre souhaité. Ces travaux ont permis d'explorer une approche séquentielle où les deux traitements sont appliqués l'un à la suite de l'autre, et une approche jointe où l'annotation tient compte de la génération de l'arbre. Cette approche jointe est l'apport principal de nos travaux. Les différentes méthodes et approches ont fait l'objet d'évaluations sur des collections de documents et permettent de montrer l'utilisabilité de la technique pour résoudre des problèmes réels.