thesis

Identification et catégorisation automatique des entités nommées dans les textes français

Defense date:

Jan. 1, 2004

Edit

Institution:

Nantes

Disciplines:

Abstract EN:

Named Entity (NE) Recognition is a recurring problem in the different domain of Natural Language Processing. As a result of, a linguistic investigation allowing to set-up operational parameters defining the concept of named entity, a state of art of the domain, and a corpus investigation using referential and graphical criteria, we present Nemesis - a French named entity recognizer. This system analyzes the internal and external evidences by using grammar rules and trigger word lexicons, and includes a learning process. With these processes, Nemesis performance achieves about 90% of precision and 80% of recall. To increase the recall, we put forward optional modules (analysis of the wide context and utilization of the Web as a source of new contexts) and investigate in setting up a disambiguation and grammar rules inference module.

Abstract FR:

La reconnaissance des entités nommées (EN) reste un problème pour de nombreuses applications de Traitement Automatique des Langues Naturelles. Conséquemment à une étude linguistique permettant l'émergence de paramètres définitoires opérationnels liés au concept d'entité nommée, un état de l'art du domaine et une étude en corpus fondée sur des critères graphiques et référentiels, nous présentons Nemesis, un système d'identification et de catégorisation des EN du français, fondé sur l'analyse des évidences interne et externe réalisée à l'aide de lexiques de mots déclencheurs et de règles de réécriture et comportant une phase d'apprentissage. Dans cette version minimale, Nemesis atteint environ 90% en précision et 80% en rappel. Pour augmenter le rappel, nous proposons différents modules optionnels (examen d'un contexte encore plus large et utilisation du Web comme source de nouveaux contextes) et une étude pour la réalisation d'un module de désambiguïsation et d'apprentissage de règles.