Knowledge Tree

thesis

Contribution à la modélisation du langage pour des applications de recherche documentaire et de traitement de la parole

Defense date:

Jan. 1, 2000

Edit

Institution:

Avignon

Disciplines:

Computer sciences

Authors:

Brigitte Bigi

Directors:

Renato De Mori

Thierry Spriet

Abstract EN:

Pas de résumé disponible.

Abstract FR:

En classification thématique, l'objectif est d'assigner un label thématique à un segment de texte parmi un ensemble de labels possibles. Le modèle proposé repose sur la comparaison entre la distribution statique des mots clés de chaque thème et la distribution statistique des mots contenus dans la mémoire cache d'un texte à un instant donné. Cette évaluation évolue dans le temps avec la prise en compte de nouveaux mots dans le cache. Appliqué à des textes dictés, ce modèle permet une reconnaissance rapide des thèmes. Nous montrons également que l'utilisation d'une combinaison linéaire d'un modèle bigramme général avec des modèles thématiques apporte un gain substantiel de perplexite. En segmentation thematique, on cherche à déterminer les frontières entre paragraphes de thèmes différents. Pour repérer les changements de thème, on utilise le modèle à base de mémoire cache developpé pour la classification thématique, associé à une programmation dynamique. D'autres nouvelles méthodes ont également été testées afin que la segmentation ne nécessite pas de connaissances préalables sur les thèmes. Pour ce faire, on donne de nouvelles représentations de l'histoire d'un mot. L'ensemble des résultats ainsi obtenus montre que différentes stratégies doivent être utilisées selon les valeurs de rappel et de précision que l'on souhaite. Le but en expansion de requête est d'ajouter de nouveaux termes pertinents à la requête d'un utilisateur, afin de rendre plus précise les reponses du système de recherche documentaire. Notre modèle évalue une mesure de divergence entre la distribution de probabilités des termes représentatifs des documents fournis par le systeme avec la requête initiale, et la distribution de ces mêmes termes dans la collection entière. Ceci permet d'attribuer un score à des termes candidats qui formeront la requête étendue