thesis

Reconnaissance automatique des noms propres : application à la classification automatique de textes journalistiques

Defense date:

Jan. 1, 2002

Edit

Institution:

Tours

Disciplines:

Directors:

Abstract EN:

Pas de résumé disponible.

Abstract FR:

Dans les textes journalistiques, les noms propres sont très importants pour une compréhension précise du sens des textes, mais ils sont très peu représentés dans les ressources lexicales disponibles. Le travail réalisé ici cherche à automatiser leur extraction et leur catégorisation. Nous avons implanté le système CasSys qui permet l'utilisation de cascade de transducteurs et peut ainsi réaliser de l'analyse syntaxique d'un texte ou de l'extraction d'information. Le système d'extraction de noms propres crée, extracNP, utilise casSys ; les phénomènes d'ambigui͏̈tés, de segmentation et de catégorisation des noms propres sont ainsi gérés par la cascade. Par cette méthode, nous avons obtenu une précision de 94% avec un rappel de plus de 93%. Puis, nous avons montré que les noms propres sont porteurs d'une information qui les rend particulièrement intéressants pour obtenir une classification de qualité.