thesis

XSEarch, un moteur de recherche pour XML combinant structure et contenu

Defense date:

Jan. 1, 2005

Edit

Institution:

Paris 11

Disciplines:

Authors:

Abstract EN:

It is becoming increasingly popular to publish data on the Web in the form of XML documents. We present XSEarch, an XML Search Engine, that, given labels and keywords, retrieves the relevant fragments from a collection of XML documents. In XSEarch, we have tried to solve the different issues raised by using classical search engines and structured query languages. XSEarch has involved several challenges. The syntax is suitable for a naive user and facilitates writing a fine-granularity search. The user can specify in the query keywords, labels and how keywords are related to labels. Also, a query may consist only of keywords just like queries of classical search engines. Consequently, a user does not need to know the schema of the XML documents and is not required to learn the complicated syntax of structured query languages, in order to write a query. XSEarch determines the appropriate level of granularity in order to return to the user as answers, relevant fragments and not necessarily full XML documents. The fragments that are returned, are semantically related even when only keywords are specified in the query. The notion of semantic relationship is combined with classical Information Retrieval techniques to guarantee that answers are not merely semantically related fragments, but actually fragments that are highly relevant to the keywords of the query. Answers are ranked according to their relevance to the query. The ranker takes into account both structural and textual ranking factors. We have developed efficient index structures and evaluation algorithms to make our system scalable.

Abstract FR:

De plus en plus de documents XML sont publiés sur le Web. Cela nous a conduit à proposer un nouveau moteur de recherche pour XML que nous avons nommé XSEarch. La conception et l'implémentation de XSEarch a relevé un certain nombre de défis. La syntaxe des requêtes convient à l'utilisateur naïf et facilite une recherche de fine granularité. Elle permet à l'utilisateur de préciser de quelle façon les mots-clefs sont reliés aux balises. Une réponse dans XSEarch est constituée de fragments de documents sémantiquement liés. La notion de lien sémantique a été combinée aux techniques traditionnelles de recherche d'information. Ainsi, les réponses ne sont pas simplement des fragments de documents sémantiquement liés, mais des fragments relevants aux mots-clefs de la requête. Le mécanisme de ranking prend en considération le degré du lien sémantique ainsi que le caractère pertinent des mots-clefs. Les structures de données pour l'indexation ainsi que les algorithmes d'évaluation permettent de générer les réponses dans un ordre similaire à leur classement.