thesis

Elaboration d'un support de donnees textuelles bilingues annotees pour l'aide a l'evaluation de la traduction automatique par un utilisateur industriel : apport de la pragmatique

Defense date:

Jan. 1, 1995

Edit

Institution:

Paris 7

Disciplines:

Authors:

Directors:

Abstract EN:

This thesis is concerned with the building of a data set for assisting the industrial user in machine translation evaluation. The emphasis is laid on the interest of an approach based on the study of bilingual corpus pragmatic characteristics (speech acts). In order to represent a real aid for a linguistic evaluation by an industrial user, the data set must highlight the writing and translation characteristics of the text types submitted to machine translation. The study of one chapter of the maintenance manual for the super puma helicopter made it possible to identify the pragmatic characteristics relevant in the choice of the morpho-syntactic structures and translation processes actually used. The pragmatic and formal study of the french text and its attested english translation leads to a characterisation of the bilingual corpus according to three interdependent levels : pragmatics, morpho-syntax and translation. The textual data set consists in a file including the source text sequences aligned with the reference translation sequences and also including the pragmatic, formal and translation characteristics in the form of annotations (labels and formal descriptions). The sgml language allows one to systematically structure the linguistic information, in particular the pragmatic information, so that the data can be managed using data processing tools.

Abstract FR:

Cette these porte sur la conception d'un support de donnees pour l'aide a l'evaluation de la traduction automatique par un utilisateur industriel. L'accent est mis sur l'interet d'une approche fondee sur l'etude des caracteristiques pragmatiques (actes de discours) d'un corpus bilingue. Afin de representer une veritable aide a l'evaluation linguistique par un utilisateur industriel, le support de donnees doit mettre en evidence les caracteristiques redactionnelles et traductionnelles des types de textes soumis a la traduction automatique. L'etude d'un chapitre du manuel de maintenance de l'helicoptere super puma a permis d'identifier des caracteristiques pragmatiques pertinentes dans le choix des structures morpho-syntaxiques et des processus traductionnels utilises. L'etude pragmatique puis formelle du texte francais et de sa traduction humaine attestee en anglais aboutit a une caracterisation du corpus bilingue sur trois plans interdependants : pragmatique, morpho-syntaxique et traductionnel. Le support de donnees se presente sous la forme d'un fichier comportant les sequences du texte source alignees avec les sequences de la traduction de reference ainsi que les caracteristiques pragmatiques, formelles et traductionnelles sous forme d'annotations (etiquettes et descriptions formelles). Le langage sgml permet de structurer les informations linguistiques, et notamment pragmatiques, de facon systematique de maniere a ce qu'elles soient exploitables par les outils informatiques.