Une Méthode d'indexation sémantique adaptée aux corpus multilingues
Institution:
Lyon, INSADisciplines:
Directors:
Abstract EN:
This thesis deals with indexing problems of a multilingual corpus in an information retrieval system. Indexing procedure identifies the knowledge related to a text and represents it by keywords called descriptors. However, multilinguality increases the complexity of the indexing procedure because some "translation" is necessary to represent documents and queries in the same indexing space. To find a good translation of a term, the concept denoted by this term should be identified. Currently, pertinent information retrieval aims at representing the document semantics by concepts instead of terms. This thesis proposes a semantic indexing method for XML-encoded documents based on knowledge describing the document content, whatever the document language is. Our method indexes documents using two types of knowledge: - Domain knowledge, which composes a pivot language, used to represent documents and queries in the same indexing space not dependent on the languages. - Terminological knowledge, which is organized in several vocabularies (one per language). Terminological knowledge is related to domain knowledge and constitutes some presentation languages used to visualize the domain knowledge in several languages. In order to manipulate our indices, we define our own knowledge representation model entitled the semantic graphs. This model is an enrichment of the Sowa model of conceptual graphs by differentiating domain knowledge from terminological knowledge, but also by proposing a comparison function of graphs more adapted to the purpose information retrieval. Our indexing method can be used as well in a multilingual information retrieval system as in a knowledge hypertext. That's why we claim that our indexing method is generic. To validate our proposition, a prototype, called SyDoM, was developed, dedicated for the needs of virtual library.
Abstract FR:
Ces travaux de thèse s'inscrivent dans la problématique générale liée à l'indexation d'un corpus de texte pour la recherche d'information multilingue. Le but de l'indexation est d'identifier la connaissance contenue dans un texte et de la représenter par des mots clés appelés descripteurs. Or, la composante multilingue ajoute une complexité supplémentaire au processus d'indexation car une étape de traduction est obligatoire pour représenter document et requête par des descripteurs appartenant au même espace d'indexation. Pour traduire correctement un terme, il est préférable de reconnaître le concept dénoté par celui-ci. Actuellement, une recherche d'information pertinente représente le contenu des documents par des concepts et non plus par des termes. Cette thèse propose une méthode d'indexation sémantique pour les documents XML permettant de caractériser le contenu documentaire par des connaissances, non dépendante de la langue des documents. Ces connaissances sont déclinées en deux types : - Les connaissances du domaine sont utilisées pour représenter les documents et les requêtes dans le même espace de représentation non dépendant des langues. - Les connaissances terminologiques constituent plusieurs langages de présentation des connaissances du domaine. Nous avons défini notre propre modèle de représentation des connaissances intitulé les graphes sémantiques. Ce modèle est un enrichissement du modèle des graphes conceptuels de Sowa. Premièrement, notre modèle différencie les connaissances du domaine, des connaissances terminologiques. Deuxièmement, une fonction de comparaison de graphes adaptée aux besoins réels de la recherche d'information est proposée. Notre méthode d'indexation se veut générique car elle peut être utilisée aussi bien dans un système de recherche d'information multilingue que dans un hypertexte à base de connaissances. Pour valider notre proposition, un prototype, appelé SyDoM, a été implanté, répondant aux besoins d'une bibliothèque virtuelle.