Entrepôts de documents : de l'alimentation à l'exploitation
In this thesis, we propose the concept of document warehouse which consists in the storage of heterogeneous, selected and filtered documents, and their classification according to generic logical structures (common structures to a set of documents). Such warehouses organization facilitates the exploitation of the integrated documentary information through several complementary techniques : the information retrieval which consists in the restitution document granules in response to a query formulated with keywords (free language), the data interrogation which consists in the restitution factual data (structure or content) by using a declarative language, the multidimensional analysis which consists in the manipulation of warehouse information according to not-predefined dimensions. To validate our propositions, we developed an aid tool DOCWARE (DOCument WAREhouse) for the integration and the analysis of documents.
Nous proposons dans le cadre de cette thèse le concept d'entrepôt de documents permettant le stockage de documents hétérogènes, sélectionnés et filtrés, ainsi que leur classification selon des structures logiques génériques (structures communes à un ensemble de documents). Une telle organisation des entrepôts permet de faciliter l'exploitation des informations documentaires intégrées au travers de plusieurs techniques complémentaires : la recherche d'information qui consiste à restituer des granules de documents en réponse à une requête formulée à l'aide de mots-clés (langage libre), l'interrogation des données qui consiste à récupérer des données factuelles (de structure ou de contenu) en utilisant un langage déclaratif, l'analyse multidimensionnelle qui consiste à manipuler les informations de l'entrepôt selon des dimensions non prédéfinies. Pour valider nos propositions, nous avons développé un outil DOCWARE (DOCument WAREhouse) d'aide à l'intégration et à l'analyse de documents.