Fonctions d'oubli et résumés dans les entrepôts de données
Institution:
Paris, ENSTDisciplines:
Directors:
Abstract EN:
The amount of data stored in data warehouses grows very quickly so that they get saturated. To overcome this problem, the solution is generally to archive older data when new data arrive if there is no space left. This solution is not satisfactory because data mining analyses based on long term historical data become impossible. As a matter of fact data mining analysis cannot be done on archived data without re-loading them in the data warehouse; and the cost of loading back a large dataset of archived data is too high to be operated just for one analysis. So, archived data must be considered as lost data regarding to data mining applications. In this thesis, we propose a solution for solving this problem: a language is defined to specify forgetting functions on older data. The specifications include the definition of some summaries of deleted data to define what data should be present in the data warehouse at each step of time. These summaries are aggregates and samples of deleted data and will be kept in the data warehouse. The goal of these forgetting functions is to control the size of the data warehouse. This control is provided both for the aggregate summaries and the samples. The specification language for forgetting function is defined in the context of relational databases. Once forgetting functions have been specified, the data warehouse is automatically updated in order to follow the specifications. This thesis presents both the language for specifications, the structure of the summaries, the algorithms to update the data warehouse and the possibility of performing interesting analyses of historical data.
Abstract FR:
Les entrepôts de données stockent des quantités de données de plus en plus massives et arrivent vite à saturation. La solution qui est appliquée en général est d'assurer un archivage périodique des données les plus anciennes. Cette solution n'est pas satisfaisante car l'archivage et la remise en ligne des données sont des opérations coûteuses au point que l'on peut considérer que des données archivées sont des données perdues du point de vue de leur utilisation dans le cadre d'une analyse des données. Dans cette thèse, nous proposons une solution pour résoudre ce problème : un langage de spécifications de fonctions d'oubli est défini pour déterminer les données qui doivent être présentes dans l'entrepôt de données à chaque instant. Ces spécifications de fonctions d'oubli conduisent à supprimer de façon mécanique les données 'oublier', tout en conservant un résumé de celles-ci par agrégation et par échantillonnage. L'objectif est de mettre à disposition de l'administrateur de l'entrepôt de données des outils permettant de maîtriser la taille de l'entrepôt et d'automatiser au maximum le processus d'archivage des données anciennes en fonction de stratégies prédéfinies. Dans cette thèse, nous nous plaçons dans le cadre du modèle relationnel et nous définissons un langage de spécifications de fonctions d'oubli ainsi que les principes et les algorithmes pour mettre à jour le contenu de l'entrepôt conformément aux spécifications de fonctions d'oubli. Des mécanismes de consultation et d'analyse des résumés constitués sont également proposés.