Construction et exploitation d'un corpus syntaxiquement annoté pour le français
Institution:
Paris 7Disciplines:
Directors:
Abstract EN:
Very few gold standard annotated corpora are currently available for French. We present a project to build a reference tree bank for French. We annotate a newspaper corpus of 1 Million words (Abeillé et al 1998, 1999, 2000), following EAGLES recommendations (von Rekowski 1996, Ide et al. 1996, Sanfilippo et al. 1996, Kahrel et al. 1997) and developing specific annotation guidelines for French. Similarly to the Penn Tree Bank (Marcus et al. 1993), we distinguish a tagging and a parsing phase, and reach a process of automatic annotation followed by a systematic manual validation and correction. Similarly to the Suzanne Corpus (Sampson 1994, this volume), on the Prague tree bank (Hajicova et al 1998, this volume), we rely on several types of morphosyntactic and syntactic annotations for which we define extensive guidelines. Our goal is to provide a theory neutral, surface oriented, error-free tree bank for French. Similarly to the Negra project (Brants et al. 1999, this volume), we annotate both constituents and functional relations. Due to the lack of robust reusable annotation tools at the beginning of the project, we chose to develop our own.
Abstract FR:
Dans ce mémoire, nous avons présenté un corpus annoté syntaxiquement pour le français, pleinement désambigui͏̈sé et validé manuellement. Ce travail est particulièrement centré sur la méthodologie mise en oeuvre lors de l'annotation semi-automatique de corpus et sur la description linguistique. L'annotation comprend l'assignation de traits ou catégories à des unités textuelles, les "mots" dans une première étape, et la représentation des constituances et dépendances articulant des unités syntagmatiques dans une seconde étape. Cette seconde phase de l'annotation de corpus est en cours et soulève encore un certain nombre de problèmes théoriques (comment annoter les dépendances ambigue͏̈s par exemple). L'annotation syntaxique comprend un ensemble de procédures qui ne sont pas sans influence sur la mise en lumière de certains phénomènes linguistiques lors de l'exploitation du corpus. . .