Analyse fine : bornes inférieures et algorithmes de calculs d'intersection pour moteurs de recherche
Institution:
Paris 11Disciplines:
Directors:
Abstract EN:
Indexed search engines solving conjunctive queries need to compute the intersection of sorted sets. The usual worst case analysis is too crude to compare the algorithms for this problem. Ideally, an efficient algorithm should solve "easy" instances more quickly. This problem was already studied by Demaine, Lopez-Ortiz and Munro [DLOM00]. We define a model of finer analysis [BK02] with a new measure of "difficulty" based on the non-deterministic complexity of the problem. We prove the optimality of the algorithm of Demaine, Lopez-Ortiz and Munro [DLOM01] in this model. We define the t-threshold set problem, a generalization of the problems of finding the intersection or the union of sorted sets, and we prove similar results on this problem. We define the opt-threshold set, the minimal non-empty threshold set, and we give an almost optimal algorithm to compute this set. We study further generalization to combinations of decision problems [BR02]. This generalizes previous results to the computation of the interunion (computing the intersection of a union of sorted sets), a problem motivated by search engines indexed on factors of keywords. As an application, we present the search engine integrated to FFSS, a file sharing system. Keywords : adaptive algorithme, fine analysis, intersection.
Abstract FR:
La résolution de requêtes conjonctives dans les moteurs de recherche indexés met en oeuvre l'intersection de tableaux triés. L'analyse classique dans le pire des cas ne permet pas de distinguer les algorithmes résolvant ce problème. Faisant suite aux travaux de Demaine, Lopez-Ortiz et Munro [DLOM00] nous proposons une analyse plus fine [BK02] de la complexité probabiliste de ce problème : idéalement un algorithme efficace devrait résoudre des instances "faciles" plus rapidement. Cette analyse est basée sur la complexité non-déterministe du problème et permet de montrer l'optimalité de l'algorithme de Demaine, Lopez-Ortiz et Munro [DLOM01]. Nous généralisons l'intersection à l'ensemble de multiplicité t et à l'ensemble de multiplicité optimale, et montrons des résultats similaires à ceux obtenus sur l'intersection. Nous étudions la généralisation de ces travaux à d'autres requêtes, sous la forme de combinaisons de problèmes de décision [BR02]. Cela nous permet de généraliser les résultats précédents au calcul de l'InterUnion (intersection d'unions de tableaux triés). Ces problèmes de calcul apparaissent dans le moteur de recherche intégré à FFSS, un système de partage de fichiers visant à remplacer le protocole de partage de fichier SMB, en cours de développement. Nous décrivons le concept de moteur de recherche intégré, les spécifications du protocole, et l'implémentation de divers aspects du moteur de recherche.