thesis

Indexation sémantique de documents XML

Defense date:

Jan. 1, 2005

Edit

Institution:

Paris 11

Disciplines:

Directors:

Abstract EN:

XML documents address new challenges and impose new methods for accessing information. They present the advantage of an explicit structure which facilitates their presentation and their exploitation in various contexts. The aim of Semi-structured Information Retrieval (SIR) is to take this structure into account and to integrate it to the representation of the content of semi-structured documents. The Semantic Web (SW) relies on the capacity of XML to define “personalised” tags and standards to describe the signification of the terminology used by means of formal ontologies. The use of ontologies in Information Retrieval has gained interest with the SW. We aim at showing that it is useful to have an intermediate representation of documents as a formal description of the textual content is expensive. In this work we propose new methods that take advantage of the structure and semantics of the documents. The proposed model relies on: 1. A generic model which allows to index documents with heterogeneous structure and provides a matching of these structures. 2. A query language which, unlike the existing query languages, is intuitive and has an XML syntax. The proposed language enables to ask requests on semi-structured documents by keywords and with vague conditions on structure. The semantics are handled in a completely transparent way for the user.

Abstract FR:

Les documents XML, posent de nouveaux défis et imposent de nouvelles méthodes de traitement d'information. Ils présentent l'avantage de posséder une structure explicite qui facilite leur présentation et leur exploitation dans différents contextes. Cependant, très souvent, la majeure partie de l'information reste contenue dans les champs textuels. Il est donc devenu primordial de concevoir des méthodes permettant d'exploiter à la fois la structure et le contenu textuel de ces documents. Le Web sémantique repose sur la capacité de XML à définir des balises "personnalisées" et de standards pour décrire formellement la signification de laterminologie employée dans les documents Web. L'intérêt de l'utilisation de l'ontologie en Recherche d'information a redoublé avec le Web sémantique. Nous nous inscrivons dans cette optique en défendant la thèse qu'une description fine des documents est coûteuse et qu'il serait utile d'avoir une représentation intermédiaire pour retrouver les informations pertinentes. L'objectif de nos travaux est de proposer des méthodes qui mettent à profit la structure et le contenu sémantique des documents. Le modèle que nous proposons repose sur : 1. Un modèle générique qui permet d'indexer des documents qui possèdent des structures hétérogènes et qui permet de retrouver et d'apparier ces structures. 2. Un langage de requête qui à la différence des langages de requêtes qui existent est plus intuitif et repose sur une syntaxe XML. Notre langage permet de poser des requêtes vagues sur la structure et sur le contenu ainsi que des requêtes simples mots-clés. La prise en compte de la sémantique est totalement transparente à l'utilisateur.