Construction d'entrepôts de données par intégration de sources hétérogènes
Institution:
Paris 13Disciplines:
Directors:
Abstract EN:
This work describes the construction of a data warehouse by the integration of heterogeneous data. These latter could be structured, semi-structured or unstructured. We propose a theoretical approach based on an integration environment definition. This environment is formed by data sources and inter-schema relationships between these sources ( equivalence and strict order relations). Our approach is composed of five steps allowing data warehouse component choice, global schema generation and construction of data warehouse views. Multidimensional schemas are also proposed. All the stages proposed in this work are implemented by the use of a functional prototype (using SQL and Xquery). Keywords Data Integration, data warehouses, heterogeneous data, inter-schema relationships, Relational, Object-relational, XML, SQL, Xquery.
Abstract FR:
Les données nécessaires à des fins décisionnelles sont de plus en plus complexes. Elles ont des formats hétérogènes et proviennent de sources distribuées. Elles peuvent être classées en trois catégories : les données structurées, les données semi-structurées et les données non-structurées. Dans cette thèse, nous nous sommes intéressés au domaine d’intégration de données dans le but de construction d’entrepôts dont les sources sont totalement hétérogènes et appartenant aux différentes catégories. Nous proposons un cadre formel qui se base sur la définition d’un environnement d’intégration. Un ensemble de ²liens d’intégration² entre les composants des sources est ainsi défini : une relation d’équivalence et une relation d’ordre strict. Ces liens sont définis indépendamment de toute modélisation des sources de données. Ces dernières peuvent alors être hétérogènes et de catégories différentes. Notre approche a donné naissance au prototype (HDI for DW). Elle est composée de cinq étapes allant de la définition des composants de l’entrepôt jusqu’à la génération des scripts SQL et XQuery de création des vues de ce dernier. Un ensemble de schémas multidimensionnels sous forme de faits et de dimensions est proposé. Mots clés Intégration de données, bases et entrepôt de données, données hétérogènes, données complexes, liens d’intégration, relationnel-étendu, XML, SQL, XQuery.