
Documents multi-structurés : de la modélisation vers l'exploitation

Defense date:

Jan. 1, 2006



Lyon, INSA


Abstract EN:

In this thesis manuscript we propose a generic model, called MSDM (Multi-Structured Document Model), which allows integrating the specific characteristics of the multi-structured documents in an appropriate representation. In the MSDM model several important concepts have been defined in order to facilitate the multi-structured documents exploitation. Using this model we have proposed an XML-based formalism, called MultiX, allowing the multi-structured document serialization. We have also explored the multi-structured document exploitation in the information retrieval context. In order to allow efficient querying possibilities on MultiX documents, we have extended the XQuery language by developing a specific functions library. These functions allow a more efficient and easy exploration of the multi-structured documents encoded in the MultiX formalism. To validate our propositions we have implemented a specific framework which we have built around an implementation of the MSDM model.

Abstract FR:

La structuration multiple des documents pose différents types de problématiques. Parmi celles-ci la représentation des ces documents ainsi que leurs exploitations notamment dans un contexte de recherche d’information. Le problème principal réside dans le fait qu’il n’existe pas un formalisme standardisé permettant de matérialiser de manière appropriée et pérenne un document possédant plusieurs structures. Les travaux de recherche que nous avons mené au cours de cette thèse nous ont conduit à définir un modèle spécifique pour la représentation de ce type de documents. Le modèle MSDM (Multi-Structured Document Model) que nous proposons se veut un modèle générique intégrant des caractéristiques spécifiques aux documents multi-structurés tout en étant facilement exploitable. Partant de ce modèle nous avons proposé un formalisme, basé sur XML, appelé MultiX permettant la sérialisation de ces documents. Nous avons étudié l’exploitation de ces documents dans le contexte de la recherche d’information. Pour interroger efficacement les documents multi-structurés au format MultiX, nous avons développé une extension du langage XQuery sous forme d’une bibliothèque de fonctions spécifiques. Ces fonctions permettent une exploitation plus efficace et plus facile des documents MultiX. Pour valider nos propositions nous avons implémenté un framework offrant des possibilités de création d’analyse et de manipulation de documents multi-structurés.