Recherche ciblée de documents sur le Web
Institution:
Paris 11Disciplines:
Directors:
Abstract EN:
Since its creation, the web saw its size growing in a phenomenal way making the search of information difficult to achieve. In fact, when searching for complex information like thematic documents for example, the answers are numerous and often unprecise. In this case, it is necessary to resort to a human expert so that the irrelevant answers can be discarded. This inaccuracy is explained by the principle on which the current web tools searched the documents. Indeed, the keyword-based queries, used by most of the popular search engines, are not sufficiently expressive to characterize the desired documents. In addition to this, the techniques used by these search engines to populate their index warehouses of documents, on which the requests are evaluated, aim at downloading any kind of document from the web without any search restriction. I show in this dissertation that the heterogeneïty of such warehouses can cause inaccuracy when evaluating a keyword-based query. To improve the web search precision, I propose WeQueL, a multicriteria query language for a better characterization of web documents. With WeQueL queries, I show that combining different keyword-based criteria targeted on specific parts of a document structure can increase significantly the precision of keyword-based searchs. I also propose a selective web crawling approach that is directed by a WeQueL query. This approach is based on the anticipation of the score of a document without having its content. To do this, I propose a bayesian training system that uses a set of statistical measures.
Abstract FR:
Depuis sa création, le web a vu sa taille croître de manière phénoménale rendant la recherche d'informations difficile et fastidieuse. Cette difficulté est perceptible lorsqu'il s'agit de rechercher des documents complexes tels que des documents thématiques. Ceci se traduit par des réponses nombreuses et souvent imprécises. Il est, dans ce cas, nécessaire de recourir à un expert humain pour filtrer les réponses impertinentes. Cette imprécision s'explique par le principe même du fonctionnement des outils de recherche actuels de documents sur le web. En effet, les requêtes mots clés utilisés par la plupart des moteurs de recherche sont peu expressives pour caractériser les documents souhaités. Par ailleurs, les techniques utilisées par ces moteurs pour constituer leur index de documents, sur lequel les requêtes sont évaluées, parcourent le web dans le but de rapatrier tout type de documents. Je montre dans cette thèse que l'hétérogénéïté des index des moteurs de recherche et leur technique non ciblée pour alimenter ces index peut être source d'imprécision lors de l'évaluation des requêtes. Pour améliorer la précision de la recherche sur le web, je propose WeQueL, un langage de requêtes déclaratif et multicritères. Par ce langage, je montre qu'une façon d'augmenter la précision des requêtes mots clés consiste à les combiner sur différentes parties de la structure d'un document. Je propose également une approche sélective d'exploration du web guidée par une requête WeQueL. Cette approche repose sur une technique d'anticipation du score d'un document sans avoir encore rapatrié son contenu. Pour cela, un système d'apprentissage bayésien est mis en place.