thesis

Automatisation de la médiation entre XML et des bases de données relationnelles

Defense date:

Jan. 1, 2010

Edit

Institution:

Lyon, INSA

Disciplines:

Abstract EN:

XML has rapidly emerged as a de facto standard for data exchange among modern information systems. It offers simple and flexible means to exchange data among applications. In the meanwhile, relational databases are still the most used data storage technology in almost all information systems because of their unique features of scalability, reliability and performance. Thus, a crucial issue in the data management is to bring together the flexibility of the XML model for data exchange and the performance of the relational model for data storage and retrieval. However, the automation of bi-directional data exchange between the two remains a challenging task. In this dissertation, we present a novel mediation approach to automate data exchange between XML and relational data sources independently of the adopted data structures in the two data models. We first propose a generic mediation framework for the data exchange between any XML document and any existing relational database. The architecture of our proposed framework is based on the development of generic components, which will ease the setup of specific interfaces adapted to any XML source and any target relational database. The mediator components are independent of any application domain, and need to be customized only once for each couple of source and target data storage formats. Hence, our mediator provides automatic and coherent updates of any relational database from any data embedded in XML documents. It also allows to retrieve data from any relational database and to publish them into XML documents (or messages) structured according to a requested interchange format. The transformation from a Relational Model to XML represents a main key component of the proposed mediator. Thus, we proposed a methodology and devised two algorithms to efficiently and automatically transform the relational schema of a relational database management system into an XML schema. Our transformation methodology preserves the integrity constraints of the relational schema and avoids any data redundancy. It has been designed in order to preserve the hierarchical representation of the relational schema, which is particularly important for the generation of correct SQL updates and queries in the proposed mediation framework. Another key component is the automation of the SQL generation. Therefore, we devised a generic methodology and algorithms to automate the SQL queries generation that are required to update or retrieve data to/from the relational databases. Our proposed framework has been successfully applied and tested in the healthcare domain between an XML representation of SCP-ECG, an open format ISO standard communications protocol embedding bio-signals and related metadata, and an European relational reference model including these data. The mediation automation is especially relevant in this field where electrocardiograms (ECG) are the main investigation for the detection of cardiovascular diseases, and need to be quickly and transparently exchanged between health systems, in particular emergency, whereas the SCP-ECG protocol has numerous legacy implementations since most of the sections and of the data fields are not mandatory.

Abstract FR:

XML offre des moyens simples et flexibles pour l'échange de données entre applications et s'est rapidement imposé comme standard de fait pour l'échange de données entre les systèmes d'information. Par ailleurs, les bases de données relationnelles constituent aujourd’hui encore la technologie la plus utilisée pour stocker les données, du fait notamment de leur capacité de mise à l’échelle, de leur fiabilité et de leur performance. Combiner la souplesse du modèle XML pour l'échange de données et la performance du modèle relationnel pour l’archivage et la recherche de données constitue de ce fait une problématique majeure. Cependant, l'automatisation des échanges de données entre les deux reste une tâche difficile. Dans cette thèse, nous présentons une nouvelle approche de médiation dans le but d’automatiser l'échange de données entre des documents XML et des bases de données relationnelles de manière indépendante des schémas de représentation des données sources et cibles. Nous proposons tout d’abord un modèle d’architecture de médiation générique des échanges. Pour faciliter la configuration d’interfaces spécifiques, notre architecture est basée sur le développement de composants génériques, adaptés à n'importe quelle source XML et n'importe quelle base de données relationnelle cible. Ces composants sont indépendants de tout domaine d'application, et ne seront personnalisés qu’une seule fois pour chaque couple de formats de données sources et de stockage cible. Ainsi notre médiateur permettra la mise à jour automatique et cohérente de toute base de données relationnelle à partir de données XML. Il permettra aussi de récupérer automatiquement et efficacement les données d'une base de données relationnelle et de les publier dans des documents XML (ou messages) structurés selon le format d'échange demandé. La transformation en XML Schema d'un modèle relationnel constitue l’un des éléments clé de notre médiateur. Nous proposons une méthodologie basée sur deux algorithmes successifs : l’un de stratification des relations en différents niveaux en fonction des dépendances fonctionnelles existant entre les relations et les clés des relations, le deuxième de transformation automatique du modèle relationnel en XML Schema à partir de la définition d’un ensemble de fragments types d’encodage XML des relations, des attributs, des clés et des contraintes référentielles. La méthodologie proposée préserve les contraintes d'intégrité référentielles du schéma relationnel et élimine toute redondance des données. Elle a été conçue pour conserver la représentation hiérarchique des relations, ce qui est particulièrement important pour la génération de requêtes SQL correctes et la mise à jour cohérente des données. Notre approche a été appliquée et testée avec succès dans le domaine médical pour automatiser l’échange de données entre une représentation XML du protocole de communication standard SCP-ECG, une norme ISO décrivant un format ouvert de représentation de bio-signaux et métadonnées associées, et un modèle relationnel européen de référence qui inclut notamment l’archivage de ces données. L'automatisation de la médiation est particulièrement pertinente dans ce domaine où les électrocardiogrammes (ECG) constituent le principal moyen d’investigation pour la détection des maladies cardio-vasculaires et doivent être échangés rapidement et de manière transparente entre les différents systèmes de santé, en particulier en cas d'urgence, sachant que le protocole SCP-ECG a de nombreuses implémentations puisque la plupart des sections et des champs de données sont optionnels.