thesis

Cadre formel pour l'appariement de schémas XML pour l'intégration de données

Defense date:

Jan. 1, 2007

Edit

Institution:

Paris 8

Disciplines:

Authors:

Abstract EN:

Today, many research works on heterogeneous data integration offer integration systems based on interoperable architectures by taking account of the diversity, autonomy and heterogeneity of data sources. Moreover, this integration process must make it possible to treat sources having different data models and / or schemas. In this thesis, we focus on the problematic related to the mediator system, where the mediator schema represents the user's needs created from the source schemas or done manually by experts. We advocate the use of a schema matching process that semi-automatically looks for semantic correspondences between two heterogeneous schemas. From such correspondences, transformation programs can be automatically generated. Concretely, our work consists in defining a logical XML representation during a pre-integration translation phase of the source schemas, starting from structural and semantic information contained in these schemas. We thus obtain extended XML schemas, called EXS. From there, the matching problematic is reduced to the mapping of several EXS schemas. In this respect, we propose a formal framework for the whole of the matching process of these XML schemas. Initially, we adopt graph formalism (nodes, edges, constraints). Then, we apply equivalence and similitude search methods between schemas taking into account in particular three kinds of contexts (root, intermediate and leaf contexts). Once established, these similarities make it possible to build the rules of correspondence which will be used to automatically generate the transformation script as XSL stylesheets.

Abstract FR:

Aujourd'hui, de nombreux travaux de recherche sur l'intégration de données hétérogènes offrent des systèmes d'intégration basés sur des architectures interopérables prenant en compte la diversité de l'autonomie et de l'hétérogénéité des sources de données. De plus, ce processus d'intégration doit permettre de traiter des sources qui ont des modèles de données et / ou des schémas différents. Dans cette thèse, nous nous intéressons à la problématique de l'intégration liée aux systèmes de médiation où les besoins des usagers sont représentés par un schéma de médiation créé à partir des schémas de données sources ou réalisés manuellement par des experts du domaine. Nous proposons l'utilisation d'un processus semi-automatique qui établit les correspondances sémantiques entre deux schémas hétérogènes. À partir de telles correspondances, des programmes de transformation peuvent être automatiquement générés. Concrètement, notre travail consiste à définir une représentation logique XML lors d'une phase de pré-intégration traduisant des schémas sources à partir des informations structurelles et sémantiques contenues dans ces derniers. Nous obtenons des schémas XML étendus appelés EXS. À partir de là, la problématique d'appariement se réduit à la mise en correspondance de plusieurs schémas EXS. À cet égard, nous proposons un cadre formel pour l'ensemble du processus d'appariement de ces schémas XML. Dans un premier temps, nous adoptons le formalisme des graphes (nœuds, arcs, contraintes). Puis nous appliquons des méthodes de recherche d'équivalence et de similitude entre les schémas prenant en compte notamment trois sortes de contextes d'apparition de nœud, à savoir racine, intermédiaire et feuille. Une fois établies, ces similarités permettent de construire les règles de correspondance qui serviront à produire automatiquement la description de la transformation sous la forme de feuilles de style XSL.