Contribution à l'interrogation flexible de données semi-structurées
Institution:
Toulouse 3Disciplines:
Directors:
Abstract EN:
Many querying languages have been proposed to manipulate Semi-Structured Data (SSD) and to extract relevant information (in terms of structure and/or content) to the user. Such querying languages should take into account not only the content but also the underlying structure since it can completely change their relevance and adequacy with respect to the needs expressed by the user. However, not having prior knowledge and the heterogeneity of SSD structure makes classical database languages inadequate. The work undertaken on database flexible querying revealed that fuzzy logic is particularly well-suited for modelling the notion of flexibility and preferences according to human reasoning. In this sense, we propose a model of flexible query for SSD in general and XML documents, taking into account the content and the underlying structure of SSD. Fuzzy logic is used to represent the user's preferences on the content and structure of SSD. At the end of the evaluation process, every response is associated with a degree in the interval ]0. 1]. The more this degree is low, the answer seems less relevant. This degree is calculated using the degree of ownership and measures known similarity in information retrieval systems for content, and the minimum spanning tree for the structure. The proposed model has been reviewed and validated using PRETI Platform and INEX benchmark, thanks to the prototype that we've developped.
Abstract FR:
Pour manipuler les Données Semi-Structurées (DSS) et en extraire les informations pertinentes en termes de structure et/ou de contenu pour l'utilisateur, de nombreux langages de requêtes ont été proposés. Ces langages de requêtes devraient donc prendre en compte non seulement le contenu mais aussi la structure sous-jacente car cette dernière peut changer complètement leur pertinence et leur adéquation vis à vis des besoins exprimés par l'utilisateur. Cependant, la non connaissance a priori et l'hétérogénéité de structure de DSS rendent les langages d'interrogation de BD classiques incompatibles avec l'interrogation de telles collections semi-structurées. Les techniques standards d'interrogations basées sur l'appariement exact sont donc inadaptées pour interroger des sources de DSS : une requête peut aboutir à un ensemble vide ou incomplet de réponses lors de l'interrogation même s'il existe des réponses pertinentes dans la(les) source(s) à interroger. Un autre problème relève de la prise en compte de l'information "manquante". En effet, puisque la structure de l'instance de document est par essence incomplète, il est possible que l'information ne soit pas explicitement signifiée ou encore qu'elle n'ait pas été correctement élicitée. Ceci implique de ne pas considérer cette absence d'information comme une information négative, mais de traiter ces cas avec l'incertitude qui convient, dans un algorithme général de "ranking". Pour résoudre ces problèmes le recours aux techniques d'appariement flexible (approximatif) et la réponse sous forme des listes ordonnées de réponses selon les préférences de l'utilisateur, représentent un choix presque inévitable. Les travaux menés jusqu'ici dans le cadre de l'interrogation flexible de BD ont révélé que la logique floue constitue un cadre particulièrement bien adapté pour modéliser la notion de flexibilité et de préférences selon le raisonnement humain. Dans ce sens, nous proposons un modèle d'interrogation flexible pour les DSS en général et pour les documents XML en particulier, en prenant en compte le contenu et la structure sous-jacente des DSS. La logique floue sera utilisée pour représenter les préférences de l'utilisateur sur le contenu et la structure des DSS. D'autre part, à la fin du processus d'interrogation, chaque réponse est associée à un degré compris dans l'intervalle ]0,1]. Plus ce degré est faible, moins la réponse semble pertinente. Ce degré est calculé en utilisant le degré d'appartenance (m) et des mesures de similarité connues dans les systèmes de recherche d'informations (SRI) pour le contenu, et l'arbre recouvrant minimal pour la structure. Le modèle proposé a été évalué et validé dans le cadre de plateforme PRETI et d'INEX, grâce au prototype que nous avons développé.