thesis

Maintenance des entrepôts de données issus de sources hétérogènes

Defense date:

Jan. 1, 2008

Edit

Institution:

Paris 5

Disciplines:

Authors:

Directors:

Abstract EN:

This work has been performed in the field of data warehouses (DW). DW are in the core of Decision making information system and are used to support decision making tools (OLAP, data mining, reporting). A DW is an alive entity which content is continuously fed and refreshed. Updating aggregates of DW is crucial for the decision making. That is why the DW maintenance has a strategic place in the decision system process. It is also used as a performance criterion of a DW system. Since the communication technologies especially Internet are steadily growing, data are becoming more and more heterogeneous and distributed. We can classify them in three categories: structured data, semi-structured data and unstructured data. In this work we are presenting first a modelling approach with the aim of integrating all this data. On the bases of this approach, we are thereafter proposing a process that insures an incremental warehouse data and aggregates maintenance. We are also proposing a tree structure to manage aggregates as well as algorithms that insure its evolution. Being in the context of heterogeneity, all our proposals are independent of the warehouse model and of its management system. In order to validate our contribution, the Heterogeneous Data Integration and Maintenance (HDIM) prototype has been developped and some experiments performed.

Abstract FR:

Ce travail s'inscrit dans le domaine des entrepôts de données qui, d'une part se situent au cœur du système d'information décisionnel et d'autre part servent de support pour l'analyse et l'aide à la décision (OLAP, data mining, reporting). L'entrepôt de données, étant une entité vivante dont le contenu est régulièrement alimenté et rafraîchi, l'actualisation de ses indicateurs d'analyse (agrégats) constitue un facteur crucial pour la prise de décision. La maintenance occupe une place stratégique dans le dispositif du système décisionnel et représente également un critère d'évaluation des performances d'un entrepôt. Par ailleurs, et suite à l'avènement des technologies de communication, particulièrement Internet, les données sont fortement distribuées et hétérogènes ; nous pouvons les classer en trois catégories, à savoir : les données structurées, les données semi-structurées et les données non-structurées. Dans le présent travail, nous proposons, dans un premier temps, une approche de modélisation pour intégrer toutes ces données. Nous proposons, par la suite et en se basant sur cette approche, un processus qui assure la maintenance des données et des agrégats de l'entrepôt. Nous proposons également une structure arborescente de gestion d'agrégats ainsi que les algorithmes qui en assurent l'évolution. Dans le contexte d'hétérogénéité dans lequel nous nous plaçons, toutes nos propositions sont indépendantes du modèle de l'entrepôt et de son système de gestion. Enfin et pour valider nos contributions, nous avons développé le prototype HDIM (Heterogeneous Data Intégration and Maintenance) et effectué une série d'expérimentations pertinentes.