thesis

Descripteurs documentaires avancés : Une approche séquentielle

Defense date:

Jan. 1, 2005

Edit

Institution:

Caen

Disciplines:

Authors:

Directors:

Abstract EN:

Pas de résumé disponible.

Abstract FR:

La modélisation de documents n'est pas un problème trivial. Depuis des décennies, les chercheurs essayent de combiner représentation pertinente et traitement efficace. Fréquemment, un document est représenté par un vecteur dans lequel chaque dimension correspond à un mot du document. Puisque cette approche ignore la position relative des mots, elle est souvent dénommée modèle " sac de mots ". Une amélioration naturelle est d'extraire et d'exploiter des séquences de mots, en supplément des mots simples. Dans cette thèse, nous considérons le problème de l'extraction, de la sélection, et de l'exploitation d'unités multi-mots, avec un intérêt particulier pour l'applicabilité de nos travaux à des collections de document écrites dans n'importe quelle langue. Après une description de l'état de l'art des représentations documentaires plus élaborées, nous présentons une nouvelle technique qui permet d'extraire efficacement des séquences fréquentes de mots dans des collections de document de n'importe quelle taille. La deuxième contribution de cette thèse est la définition d'une formule et d'un algorithme efficace pour le calcul de la probabilité d'occurrence d'une séquence d'items discontinue. Une application de ce résultat est une technique d'évaluation indirecte d'une séquence de mots par la comparaison de sa fréquence attendue et de sa fréquence observée. Finalement, nous présentons une nouvelle mesure de similarité entre documents basée sur leur représentation séquentielle. Supportant nos ambitions généralistes et multilingues, nous présentons finalement des expériences de recherche d'information utilisant des collections en anglais, japonais, chinois, et coréen.