Nettoyage de données : modèle, langage déclaratif et algorithmes
Institution:
Versailles-St Quentin en YvelinesDisciplines:
Directors:
Abstract EN:
The problem od data cleaning, which consists of removing inconsistencies and errors from original data sets, is well know in the area of decision support systems and data warehouses. This holds regardless of the application-relational database joining, web-related, or scientific. In all cases, existing ETL (Extraction transformation Loading) and data cleaning tools for writing data cleaning programs are insufficient. The main challenge is the design and implementation of a data flow graph that effectivrly generates clean data. Needed improvements to the current state of the art include (i) a clear separation between the logical specification of data transformations and their physical implementation (ii) debugging of the reasoning behind cleaning results, (iii) and interactive facilities to tune a data cleaning program. This thesis presents a langage, an execution model and algorithms that enable users to express data cleaning specifications declaratively and perform the cleaning efficiently. We use as an example a set of bibliographic references used to construct the Citeseer web site. The underlying data integration problem is to derive structured and clean textual records so that meaningful queries can be performed. Experimental results report on the assesment of the proposed framework for data cleaning.
Abstract FR:
Le problème de nettoyage de données qui consiste à éliminer les incohèrences et les erreurs trouvées dans des jeux de données originaux, est bien connu dans le domaine des systèmes d'aide à la décision et des entrepôts de données. Néanmoins, pour des applications non-conventionnelles, telles que la migration de données faiblement structurées vers des données structurées, ou l'intégration de jeux de données scientifiques hetérogènes dans des domaines inter-disciplinaires (e. G. , dans les sciences de l'environnement), les outils d'ETL (Extraction Transformation Loading) et de nettoyage de données existants sont suffisants. Leur principal défi est la conception d'un graphe de flots de données qui gènere des données nettoyées d'une manière effective, et qui se comporte de façon efficace en face de grandes volumes d'information. La difficulté sous-jacente est due à : (i) l'absence de séparation claire entre la spécification logique des transformations de données et leur implantation physique ; (ii) l'absence de techniques de debbugage du résultat d'un processus de nettoyage, (iii) et de modes d'interaction humaine permettant d'affiner un programme de nettoyage de données. Cette thèse adresse ces trois problèmes et présente un langage, un modèle d'execution et des algorithmes qui permettent aux utilisateurs d'exprimer des spécifications de nettoyage de données de façon déclarative aussi bien que d'exécuter le processus de nettoyage efficacement. Nous utilisons comme exemple un ensemble de références bibliographiques utilisées auparavent pour construire le site Web de Citeseer. Le problème d'intégration de données inhérent est celui de dériver des enregistrement textuels structurés et nettoyés de façon à permettre l'évaluation de requêtes pertinentes. Les résultats expérimentaux présentent l'évaluation de l'environnement de nettoyage de données proposé