Méthodologie de matching à large échelle pour des schémas XML
Institution:
Lyon, INSADisciplines:
Directors:
Abstract EN:
Nowadays, the Information Technology domains (semantic web, deep web, e-business, digital libraries, life science, biology, etc) abound with a large variety of DB schemas, XML schemas or ontologies stored in many heterogeneous databases and information sources. One can observe commonly in e-business applications for example schemas with several thousand elements and expressed in different formats. Thereby, a hard problem has been brought up: solving the semantic heterogeneity in the large and perform the integration of such heterogeneous collections of schemas and ontologies. Matching techniques are solutions to automatically find correspondences between these schemas/ontologies in order to allow their integration in information systems. More precisely, matching is an operation that takes as input (e. G XML schemas, ontologies, relational database schemas) and returns the semantic similarity values of their elements. Even if matching has found considerable interest in both research and practice “in the small”, it still represents a laborious process “in the large”. The standard approaches trying to match the complete input schemas often leads to shading off performance. Various schema matching systems have been developed to solve the problem semi-automatically. Since schema matching is a semi-automatic task, efficient implementations are required to support interactive user feedback. In this context, scalable matching becomes a hard problem to be solved. A number of approaches and principles have been developed for matching small or medium schemas and ontologies (50-100 components), whereas in practice, real world schemas/ ontologies are voluminous (hundred or thousand components). In consequence, matching algorithms are facing up to more complicated contexts. As a result, many problems can appear, for example: performance decreasing when the matching algorithms deal with large schemas/ontologies, their complexity becomes consequently exponential, increasing human effort and poor quality of matching results is observed. In this context, a major challenge that is still largely to be tackled is to scale up semantic matching according to two facets: a large number of schemas to be aligned or matched and very large schemas. While the former is primarily addressed in the database area, the latter has been addressed by researchers in schema and ontology matching. Based on this observation, we propose a new scalable methodology for schema matching. Our methodology supports ii) a hybrid approach trying to address the two facets based on the combination of pair-wise and holistic strategies and is deployed in three phases (pre-matching, matching and post-matching; ii) a decomposition strategy to divide large XML schemas into small ones using tree mining technique. Our methodology has been evaluated and implemented in PLASMA (Platform for LArge Schema MAtching) prototype specifically developed to this aim. Our experiments on real world schemas show that PLASMA offers a good quality of matching and the proposed decomposition approach improves the performance of schema matching.
Abstract FR:
De l’intégration des schémas de bases de données jusqu’à l’alignement d’ontologies, la problématique qui a suscité le plus de points ardus à résoudre cette dernière décennie est la recherche des correspondances. Nous nous intéressons plus particulièrement au matching. Le matching est un processus qui vise à identifier et découvrir les correspondances sémantiques entre différents formats de données tels que les schémas, les ontologies,… Cependant, dès que l’on passe à un contexte à large échelle, plusieurs problèmes se posent tels que. Les problèmes d'efficacité en termes de temps d'exécution et de qualité des résultats. L’objectif de notre travail est de relever le challenge du matching à grande échelle. En particulier, nous proposons une méthodologie de matching à large échelle, basée sur une approche hybride et structurée en trois phases (pré-matching, matching et post-matching), qui vise à optimiser le matching en s’appuyant notamment sur une phase préalable de prétraitement. Ce prétraitement se base sur des techniques d’analyse, de traitement linguistique des éléments des schémas et une approche de décomposition des schémas. La décomposition est une approche holistique qui consiste à diviser les schémas en sous schémas tout en identifiant ceux qui sont linguistiquement similaires. L’utilisation d’une telle approche nécessite des techniques qui passent à l’échelle et qui permettent un traitement d’un grand nombre de données en une seule fois. La méthodologie proposée est supportée par une plateforme nommée PLASMA (Platform for LArge Schema MAtching) que nous avons développée pour des besoins d’évaluation et d’expérimentations. Nous avons pu ainsi démontrer grâce aux expérimentations réalisées que notre système offre des résultats fiables pour des schémas très volumineux et que grâce à la méthodologie mise au point, nous avons réussi à améliorer les performances du matching en temps d’exécution.