thesis

Approches quantitatives de l'extraction de ressources traductionnelles à partir de corpus parallèles

Defense date:

Jan. 1, 2004

Edit

Institution:

Paris 3

Disciplines:

Authors:

Directors:

Abstract EN:

This research work presents the results of a series of experiments devoted to the development of new tools for intertextual textometric exploration of translation corpora. Various methods of textual statistics have been adapted for use in multilingual context and put into practice for parallel text processing, such as repeated segments extraction, characteristic elements computation, bi-textual topography, multiple co-occurrences, factorial analysis, automatic classification, etc. Examples of concrete applications illustrate the use of each of these methods in multilingual context. These examples are accompanied by sample translation resources obtained on quantitative bases from the parallel French/English corpus of the Convention for the Protection of Human Rights. The suggested approach opens up new horizons for automatic exploration of lexical equivalences of translation corpora by a variety of users: translators, foreign language teachers, terminologists, lexicographers, etc.

Abstract FR:

Ce travail présente les résultats d’une série de recherches consacrées au développement d’une nouvelle famille d’outils d’exploration textométrique intertextuelle. De nombreuses méthodes de statistique textuelle ont été articulées et adaptées au cadre multilingue : la méthode des segments répétés, les spécificités, la topographie bi-textuelle, les cooccurrences multiples, l’analyse factorielle des correspondances, la classification automatique, etc. L’utilisation de chaque méthode dans le contexte multilingue est illustrée par des exemples d’applications concrètes, accompagnés d’échantillons de ressources traductionnelles obtenues à partir du corpus parallèle français/anglais de la Convention de sauvegarde de Droits de l’Homme. Les perspectives ouvertes par cette approche offrent aux traducteurs, enseignants des langues étrangères, terminologues, lexicographes, etc. Des moyens automatisés pour explorer la structure des équivalences lexicales dans les corpus de traduction.