START, analyse syntaxique automatique de surface sur grand corpus en français
Institution:
Paris 8Disciplines:
Directors:
Abstract EN:
Our research study presents a rule-based system of shallow parsing : START (System of Textual Analysis Recognition and Tagging) extracts form constituents such as noun and verb phrases from unrestricted untagged french corpora and proceeds in a partially grammatical tagging. The method is based on the distributional analysis of the grammatical words (such as articles, pronouns, negation) which are used as "noyau" for the rules. The rules are based on statistics about grammatical words' distribution in large corpora. The system produces the following : recognition of phrases (disambiguation of punctuation), recognition and extraction of nominal and verbal groups, tagging partially terms of the extracted constituents, disambiguation of french definite article / personal pronoun ambiguity, creation of a dictionary with tagged words in flexional form. Tested accuracy exceeds 92% of precision for NP and VP. The low error rate less than 1% gives us the possibility to automatically annotate corpora.
Abstract FR:
Notre étude présente la conception et la réalisation d'un système d'analyse syntaxique de surface dans un grand corpus non annoté en français. Le système START (System of Textual Analysis Recognition and Tagging) effectue les tâches suivantes : détermination des frontières des constituants d'une phrase, extraction des groupes syntaxiques (groupes nominaux, verbaux, prépositionnels, etc. ), étiquetage partiel des mots qui composent des constituants détectés, désambigui͏̈sation des cas ambigus, création d'un dictionnaire à partir des mots qui composent les constituants. Le système n'utilise aucun dictionnaire et il utilise un minimum de règles grammaticales et syntaxiques. Il est basé sur des statistiques issues de l'analyse distributionnelle des mots grammaticaux. Le processus est novateur car il n'utilise pas de corpus étiqueté et aucune connaissance préalable. Les résultats dépassent 92% de reconnaissance pour les GV et des GN et 99,6% pour la désambigui͏̈sation, avec un taux d'erreur inférieur à 1%.