Un système de vues pour les données XML du Web : conception et implantation
Institution:
Paris 11Disciplines:
Directors:
Abstract EN:
The thesis presents the design and implementation of a view mechanism to query a large and highly heterogeneous XML repository. XML documents can be queried using their structure (DTD). Nevertheless, to query many XML documents, users need to know the structure of all of them. We classify XML documents by domain (e. G. , art, tourism, etc. ), and we define an abstract DTD to represent each domain. A view definition consists of an abstract DTD and a set of mappings that map paths in the abstract DTD into paths in the actual documents of the domain. When a view is queried, the system translates the query into a union of queries against actual data that the query processor evaluates. An important issue that we considered is the scalability of the system. To achieve high scalability and to allow an efficient query translation, we distribute views over the machines of a distributed system. The view mechanism has been fully implemented in Xyleme system, and patented by Xyleme S. A, the society that sells Xyleme.
Abstract FR:
La contribution de cette thèse consiste dans la conception et l'implantation d'un mécanisme de vues pour interroger un entrepôt des données XML. Chaque document XML peut être associé à une structure (schéma), la DTD, qui peut être utilisée pour l'interrogation. Toutefois ces structures sont très hétérogènes. L'utilisateur doit donc connaître toutes les DTDs pour pouvoir formuler une requête sur tous les documents de la base. L'idée est de classifier les données XML par domaine, et de définir, pour chaque domaine, une DTD virtuelle qui permette une interrogation homogène des documentes dans un domaine. Dans le système proposé, une vue est constituée d'une DTD virtuelle et d'un ensemble de mappings qui lient la DTD virtuelle avec les documents de la base. Lorsque une requête est adressée sur la vue, le système traduit la requête en une union de requêtes sur les DTDs pertinentes par rapport à la requête initiale. Une de difficulté majeure à la quelle nous nous sommes intéressés, est le passage à l'échelle du système propose. Pour cela nous proposons une distribution des vues de façon à rendre optimale la traduction des requêtes sur un système constitue de nombreuse machines indépendantes. Ce mécanisme de vues a été implanté et l'implantation a été intégrée dans Xyleme, un entrepôt contenant les données XML du Web.