Médiation et sélection de sources de données pour des organisations virtuelles distribuées à grande échelle
Institution:
GrenobleDisciplines:
Directors:
Abstract EN:
Data source selection is one of the most critical processes in mediation systems for large-scale contexts, as those found in large virtual organizations. Ln such contexts, the high volume of structured data sources, distribution, heterogeneity, fragmentation and replication of data difficult the identification of the relevant data sources that should evaluate a que l'y. This thesis addresses this problem and proposes OptiSource, a strategy for selecting data sources in large scale contexts. OptiSource is particularly effective in applications where a large number of sources are likely to contribute to a query at the intentionallevel (schema), but only a few of them can actually do at the extensionallevel (content). Opti-Source proposes an iterative process based on the selection of the dominant data sources for each query condition. These dominant sources are designated according to their expected contribution. Ln order to estimate this contribution OptiSource uses a model that prioritizes sources based on the l'ole they can play in the query and optimizes the assignment of sub-queries using a combinatorial optimization model. OptiSource is part of a mediation system created for virtual organizations that can dynamically choose the most appropriate source selection strategy according to the context. Our domain of application was the health sector. We validated our proposais on a variety of large scale contexts.
Abstract FR:
La sélection de sources de données est un des processus des plus critiques pour les systèmes de médiation dans des contextes grande échelle. C'est le cas notamment des grandes organisations virtuelles où le grand nombre de sources de données, la distribution, l'hétérogénéité, la fragmentation et la duplication des données rendent difficile l'identiffcation des sources pertinentes à l'évaluation d'une requête. Cette thèse aborde cette problématique et propose OptiSource, une stratégie de sélection de sources de données créée pour des tels contextes. OptiSource est particulièrement performante dans des configurations où un grand nombre de sources sont susceptibles de contribuer à une requête selon leur niveau intentionnel (schéma), mais seulement un petit nombre d'entre elles peuvent effectivement le faire au niveau extensionnel (le contenu). OptiSource propose un processus itératif basé sur sélection des sources de données dominantes pour chaque condition de la requête. Les sources dominantes sont désignées selon leur contribution attendue. Cette estimation utilise un modèle qui priorise les sources en fonction du rôle qu'elles peuvent jouer dans la requête, et optimise la répartition des sous-requêtes en utilisant un modèle d'optimisation combinatoire. OptiSource fait partie d'un système de médiation créé pour organisations virtuelles qui peut choisir dynamiquement la stratégie de sélection de sources la plus approprié au contexte. Notre domaine d'application privilégié a été le médical. Nous avons validé nos propositions sur divers types de contextes de grande taille.