Interrogation de documents XML à travers des vues
Institution:
Paris, CNAMDisciplines:
Directors:
Abstract EN:
In this thesis, we investigate the problem of queryring and integrating heterogeneous XML documents. Our first contribution is XyView, a view model for fast development of user (web forms) and machine oriented (web services) over a repisotory of heterogeneous schema-free XML documents. The solution we propose borrows from the universal relation paradigm of the seventies : XyView provides the means to easily view an XML repository as a single array, that can be queried through simple selections and projections. The problems od data loss and duplicates generated by joins in the UR definition are avoided by XyView views as set of mappings. Querying XyView is being simple thanks to a three level view model dealing with schema-free semantic data heterogeneity that strongly structure the view by separating joins from unions. Our second contribution is OpenXView : a model for open XML data in a common topic. Autonomy implies frequent and impredictible changes to data and a high degree of structure heterogeneity. The OpenXView model provides an original integration schema, based on a hybrid ontology-XML schema strucuture. We propose solutions for two important problems in such systems : easy access to data a simple query language
Abstract FR:
Dans cette thèse, nous étudions le problème d'intègrer et d'interroger des documents XML hétérogènes. Notre première contribution est XyView, un modèle de vues pour le développement d'applications utilisateur (formulaire web) ou orientées machine (service web) sur un entrepôt de documents XML hétérogènes et éventuellement sans schéma. La solution que nous proposons s'inspire du concept de la relation universelle des annes 70 : Xy View fournit les moyens de visualiser un entrepôt XML comme un tableau de valeurs, pouvant être interrogé à travers une interface similaire aux interfaces QBE ou à travers des requêtes de type sélection/projection. Les inconvénients de perte et de redondance de l'information dus aux jointures dans la définition de la relation individuelle, sont évités dans XyView en définissant la vue comme un ensemble de mappings et non pas explicitement par une requête. L'interrogation de XyView est rendue plus simple grâce à un modèle de vues à trois niveaux gérant l'hétérogéneité sémantique des données sans schéma et sructurant la vue en séparant les unions des jointures. Notre deuxième contribution est OpenXview : un modèle pour les systèmes d'intégration de données XML ouverts, caractérisés par l'autonomie des utilisateurs qui publient un nombre très large de données XML sur un thème en commun. L'autonomie implique des changements fréquents et imprèvisibles aux données et un grand degré d'hétérogéneité de structures. OpenXview fournit un modèle original pour l'intégration des données , basé sur le schéma global hybride : ontologie-XML. Nous proposons des solutions pour deux problèmes dans de tels systèmes : accès facile aux données à travers un langage d'interrogation simple sur le schéma global et une gestion facile du système quand les données changent. A la différence des vues XyView, où la stabilité des strctures permet de prédéfinir les jointures et les unios entre sources, OpenXView détermine en temps réel ces opérations, en fonction de la requête et de la structure courante des sources concernées. Nous mettons l'accent sur le problème de réécriture de requêtes dans OpenX-View en montrant un algorithme de traduction original répondant à deux critères importants : le nombre très large de sources de données, et les jointures implicites.