thesis

Combinaison de critères par contraintes pour la Recherche d'Information Géographique

Defense date:

Jan. 1, 2010

Edit

Institution:

Pau

Disciplines:

Authors:

Directors:

Abstract EN:

Recent studies show an increasing proportion of queries with geographic criteria on Web search engines. This part is even bigger on specific corpora like cultural heritage collection (e. G. Travelogues). We admit that the geographic information is composed of three facets: spatial, temporal and thematic. The goal of this thesis is to combine these three facets to support multicriteria searches. This work concerns several fields: Natural Language Processing (NLP), Geographic Information System (GIS), classic Information Retrieval (IR) and Geographic Information Retrieval (GIR). Our first contribution is about an original combination approach of specific indexes. During the retrieval process, it consists first in querying the different indexes independently and then combining the results lists. We propose also a user to personalize this combination with constraints. In order to realize this combination, we propose to imitate the homogenization approaches used in classical IR strategies that represent terms with corresponding lemmas. So, our second contribution concerns a generic standardization approach implemented on spatial and temporal information. In order to evaluate these different propositions, we have tested and validated them via several prototypes and experimentations. The last contribution relates to an evaluation framework for GIR systems. Thanks to this framework, we verified and quantified the benefit of combining the different geographic information facets and also have compared several combination approaches.

Abstract FR:

Des études récentes montrent une part croissante de requêtes sur les moteurs de recherche du Web comportant des critères géographiques. Cette part est encore plus conséquente sur des corpus plus spécifiques tels que des documents patrimoniaux (récits de voyages par exemple). On admet que l'information géographique est composée de trois facettes : le spatial, le temporel et le thématique. L'objet de ce travail de thèse est de combiner les trois facettes pour effectuer des recherches multicritère. Ce travail s'intègre au croisement de plusieurs disciplines : Traitement Automatique des Langages Naturels (TALN), Systèmes d'Information Géographique (SIG), Recherche d'Information classique (RI) et Recherche d'Information Géographique (RIG). Notre première contribution porte sur une méthode originale de combinaison des index spécifiques. Lors de l'interrogation il s'agit de questionner de manières indépendantes les différents index puis de combiner les listes de résultats restitués lors de leur interrogation (via des contraintes). Pour pouvoir effectuer cette combinaison, nous proposons d'imiter les approches d'homogénéisation utilisées dans les stratégies de RI classiques portant sur des termes et les lemmes correspondants. Notre deuxième contribution porte sur une approche d'uniformisation générique mise en oeuvre sur l'information spatiale et l'information temporelle. La dernière contribution consiste en un cadre d'évaluation d'un système de recherche géographique. Grâce à ce cadre nous avons pu vérifier et quantifier l'apport de la combinaison de critères géographiques ainsi que comparer différentes approches de combinaisons.