Une approche algébrique pour la recherche d'information structurée
Institution:
Toulouse 3Disciplines:
Directors:
Abstract EN:
The main goal of a traditional SIR is to find the documents whose contents are in conformity with a given request. In view of that, the documents are represented by a whole of key words describing their contents. The structure of the document is not taken into account neither on the level of the request, nor on the level of the answer to turn over the relevant parts; the answer to a request is the entire document. Today, the use of structured information becomes a need in the field of information access. This need is due to a type of document which is very quite widespread on Internet and used like a standard of exchange on the Web. This standard known as XML (extensible Markup Langage) is used as format of data structured on the Web; it forces the SIR to find information units which is not necessarily the whole document. The pairing document/request must then be carried out just as the documentary granules where the structure presents light differences with the request structure a score. It can also be seen like the opposite of a required effort for incremental tree construction from another one. Thanks to the flexibility brought by the indexing phase, we defined an algorithm based on the principle of the request relieving, which makes it possible to compare the tree and document requests and to return sub trees potentially relevant. According to the sub trees returned to each document, we defined a resemblance function between the request and the document. This function is an aggregation of the score coming from the structure and the contents of treated XML documents. The algorithm which we propose for the tree's comparison makes it possible to locate sub trees similar to the tree representing the request. . .
Abstract FR:
L'objectif principal d'un SRI classique est de retrouver les documents dont le contenu est conforme à une requête donnée. Dans cette optique, les documents sont représentés par un ensemble de mots-clés décrivant leurs contenus. La structure du document n'est pas prise en considération ni au niveau de la requête, ni au niveau de la réponse pour retourner les parties pertinentes : la réponse à une requête reste le document tout entier. Aujourd'hui, l'utilisation de l'information apportée par la structure devient une nécessité dans le domaine d'accès à l'information. Cette nécessité provient d'un type de document qui est très bien répandu sur Internet, utilisé comme un standard d'échange sur le Web : le langage XML (eXtensible Markup Langage) qui est utilisé comme format de données structurées sur le Web, et qui impose au SRI de retrouver des unités d'information qui ne sont pas nécessairement le document entier. L'appariement document/requête doit alors être réalisé d'une façon telle que les granules documentaires dont la structure présente de légères différences avec la structure de la requête reçoivent un score. Il peut également être vu comme l'inverse de l'effort nécessaire pour la construction incrémentale d'un arbre à partir d'un autre. Grâce à la flexibilité apportée par la phase d'indexation, nous avons défini un algorithme basé sur le principe de relaxation des requêtes, qui permet de comparer les arbres requête et documents et de retourner les sous arbres potentiellement pertinents. Selon les sous arbres retournés à chaque document, nous avons défini une fonction de ressemblance entre la requête et le document. Cette fonction est une agrégation du score provenant de la structure et celui provenant du contenu des documents XML traités. L'algorithme que nous proposons pour la comparaison d'arbres permet de localiser les sous arbres similaires à l'arbre représentant la requête. . .