Intégration de données hétérogènes et distribuées sur le web et applications à la biologie
Institution:
Aix-Marseille 3Disciplines:
Directors:
Abstract EN:
Over the past twenty years, the volume of data generated by genomics and biology has grown exponentially. Interoperation of publicly available or copyrighted datasources is difficult due to syntactic and semantic heterogeneity between them. Thus, integrating heterogeneous data is nowadays one of the most important field of research in databases, especially in the biological domain, for example for predictive medicine purposes. The work presented in this thesis is organised around two classes of integration problems. The first part of our work deals with joining data sets across several datasources. This method is based on a description of sources capabilities using feature logics. The second part of our work is a contribution to the development of a BGLAV mediation architecture based on semi-structured data, for an effortless and flexible data integration using the XQuery language.
Abstract FR:
Depuis une vingtaine d'années, la masse de données générée par la biologie a cru de façon exponentielle. L'accumulation de ces informations a conduit à une hétérogénéité syntaxique et sémantique importante entre les sources. Intégrer ces données est donc devenu un des champs principaux de recherche en bases de données, puisque l'écriture de requêtes complexes joue un rôle important, en médecine prédictive par exemple. Les travaux présentés dans cette thèse se sont orientés autour de deux axes. Le premier axe s'intéresse à la jointure de données de source en source, qui automatise les extractions manuelles habituellement destinées à recouper les données. Cette méthode est basée sur une description des capacités des sources en logique des attributs. Le deuxième axe vise à développer une architecture de médiation BGLAV basée sur le modèle semi-structure, afin d'intégrer les sources de façon simple et flexible, en associant au système le langage XQuery.