Projection d'annotations syntaxiques à travers des corpus parallèles
Institution:
Aix-Marseille 1Disciplines:
Directors:
Abstract EN:
Building an annotated corpus in an expensive, long lasting task, no matter the kind of annotation involved, whether this annotation concerns the structure of the text or the words morphology or the grammar. In this thesis, we investigaton the projection of annotations, a method used in order to reduce the efforts and costs of annotating a corpus. Cross-lingual Annotation Projection is a technique which exploits a parallel corpus in order to build automatically resources in one languages of the corpus, given linguistic resources available for the other language. Annotation Projection remains a difficult task : some difficulties may come from the kind of annotations ; some difficulties are specifics to the chosen languages. In this thesis, we will highlight the limits of this technique. Given the limits of this technique, identified though a feasibility study, starting from Hwa work on "Direct Correspondence Assumption", we will introduce in this thesis the concept of literality of a translation. We will show that the degree of literality of the translation has a strong impact over DCA. Once the relationship between literality and DCA identified, we will present a machine learning algorithm which takes advantage of the degree of literality. This algorithm will be used in a constituent trees projection task. The corpus annotated though this technique will be used in order to train a Collins parser. Finally, we will show, though several tests; strengths and weaknesses of both the corpus built via annotation projection and the parser trained on it.
Abstract FR:
La construction d'un corpus de texte annoté demande beaucoup de travail. Et ceci est valable que l'annotation concerne la structure du texte ou la morphologie des mots ou encore la grammaire. Dans cette thèse, nous investiguons sur la projection d'annotations, une méthode qui sert à réduire l'effort nécessaire à l'annotation d'un corpus. La projection d'annotation utilise un corpus parallèle pour construire de manière automatique des ressources pour une langue du corpus en partant de ressources linguistiques déjà existantes pour l'autre langue du corpus. Mais la projection d'annotation est une tâche qui présente de nombreuses difficultés ; les difficultés peuvent venir du couple de langues choisies qui forment le corpus, d'autres difficultés peuvent venir du type d'annotation à projeter. Dans cette thèse, nous allons donc analyser les limites de cette technique. Une fois identifiées les limites de faisabilité de la projection, en partant du travail de Hwa, autour de la "Direct Correspondence Assumption", nous allons introduire dans cette thèse le concept de littéralité de la traduction : nous allons montrer que la littéralité a un impact sur le DCA. Une fois mis en lumière cette relation entre littéralité et DCA, nous allons présenter un algorithme d'apprentissage capable de prendre en compte cette information. Nous allons utiliser cet algorithme pour projeter des arbres de constituants. Le corpus annoté obtenu sera utilisé pour entrainer un analyseur Syntaxique de Collins. Enfin de nombreux tests quantitatifs et qualitatifs nous permettront de mettre en lumière quels sont les points forts et les points faibles du corpus annoté par projection et de l'analyseur syntaxique qui y a été entrainé.