Reformulation de requêtes par réinjection de pertinence dans les documents semi-structurés
Institution:
Toulouse 3Disciplines:
Directors:
Abstract EN:
The works of this thesis concern the Relevance Feedback in XML semi-structured documents, using different sources of evidence. We propose to enrich the content of the initial query by adding relevant terms selected according to their distribution in relevant and not relevant elements, as well as their proximity to the terms of the initial query. We have also proposed to apply the negative relevance feedback by introducing the noise factor to select relevant terms. Another source of evidence that we have used is the structural information. We introduce the relevant structure concept, whose existence is proved by an empirical study. We propose the SCA (Smallest Common Ancestor) algorithm for the extraction of relevant structures applied in homogeneous collections. We also propose a process to extract the relevant structures in the case of heterogeneous collections. We also propose to combine the two sources of evidence (content and structure) in a combined approach. We offer three of combination method: "naive" method, context-dependent method and flexible method. Within our proposed approach, the rewriting query is grammatically formalized. All these methods have been applied for both structured and unstructured queries. The results show the benefits of the two proposed approaches (content and structures relevance feedback), the combination of the two sources of evidence can also improve performance.
Abstract FR:
Les travaux de cette thèse s'intéressent à la reformulation de requêtes par réinjection de pertinence dans les documents semi-structurés de type XML, en utilisant différentes sources d'évidences (le contenu et la structure). Nous proposons de réinjecter les termes pertinents sélectionnés selon leur distribution dans les éléments pertinents et non pertinents ainsi que leur proximité vis-à-vis des termes de la requête initiale. Nous avons appliqué la réinjection de la pertinence négative en introduisant le facteur bruit pour la sélection des termes pertinents. Une autre source d'évidence que nous avons aussi utilisée est l'information structurelle. Nous traduisons ainsi la notion de structure pertinente, dont l'existence est prouvée grâce à une étude empirique. Nous proposons l'algorithme Smallest Common Ancestor (SCA) pour l'extraction des structures pertinentes dans des collections homogènes. Nous proposons aussi un processus permettant d'extraire des structures pertinentes dans le cas des collections hétérogènes. Nous proposons également de faire cohabiter les deux sources d'évidence (contenu et structure) dans une approche combinée. Nous proposons trois méthodes de combinaison : combinaison "naïve", combinaison avec dépendance contextuelle et combinaison flexible. Quelle que soit l'approche proposée, la réécriture de la requête est formalisée selon une grammaire. L'ensemble de ces méthodes a été appliqué pour les deux types de requêtes structurées et non structurées. Les résultats montrent l'intérêt des deux approches proposées (réinjection de contenu et réinjection de structures), la combinaison des deux sources d'évidence permet également d'améliorer les performances.