thesis

Document clustering in a learned concept space

Defense date:

Jan. 1, 2010

Edit

Institution:

Paris 6

Disciplines:

Authors:

Directors:

Abstract EN:

La tâche de partitionnement de documents est l'un des problèmes centraux en Recherche d'Information (RI). Les résultats de partitionnement indique non-seulement la structure d'une collection, mais ils sont aussi souvent utilisés dans différents tâches de RI. Dans cette thèse, nous nous somme intéressés à développer des techniques probabilistes à base de modèles latents pour cette tâche. Dans ce but, nous proposons quatre techniques différentes basées sur l'observation que le partitionnement est bien plus effectif dans un espace de concepts trouvé automatiquement que dans l'espace de sac-de-mots. L'organisation de cette thèse est la suivante: dans la première partie de la thèse, nous donnons un état de l'art complet sur les techniques de partitionnement et nous présentons les algorithmes classiques pour apprendre les paramètres des modèles de partitionnement probabilistes. Dans une deuxième partie, nous présentons nos contributions en développant d'abord une méthode de partitionnement composée de deux phases. Dans la première phase, les mots de la collection sont regroupés suivant l'hypothèse que les mots apparaissant dans les mêmes documents avec les mêmes fréquences sont similaires. Les documents sont ensuite regroupés dans l'espace induit par ces groupements de mots, appelés concepts de mots. Sur ce principe, nous étendons le modèle latent PLSA pour un partitionnement simultané des mots et des documents. Nous proposons ensuite une stratégie de sélection de modèles permettant de trouver efficacement le meilleur modèle parmi tous les choix possibles. Et aussi, nous montrons comment le PLSA peut être adaptés pour le partitionnement multi-vus de documents multi-langues.

Abstract FR:

Pas de résumé disponible.