Analyse contrastive des indices morphosyntaxiques nominaux de genre et de nombre en vue d'une approche typologique de la traduction automatique - Applications sur le français, l'anglais et le roumain
Institution:
OrléansDisciplines:
Directors:
Abstract EN:
The evolution of Machine Translation involves not only a greater variety of documents but also an increasing number of languages, entailing a bigger linguistic diversity and thus a significant rise of translation difficulties. In this thesis, translation problems are considered a priori, mainly as a result of interlinguistic differences. Having taken as a starting point the idea that not all interlinguistic differences are problematic in translation, we have retained as the basic criterion for distinguishing them the notions of marking (redefined according to MT standards) and behavioural classes. The object of this study has been restricted to two linguistic categories : gender and number, and three languages : French, English and Romanian. The model we propose, inspired by contrastive morphology and typology, aims at identifying the types of MT difficulties that can appear, for a given language couple, when translating gender and number. This identification will be based on assigning each noun to a behavioural class in each language, and on studying behavioural classes'interactions. The approach will eventually permit the creation of MT difficulties that can appear, for a given language couple, when translating gender and number. This idenfication will be based on assigning each noun to a behavioural class in each language, and on studying behavioural classes' interactions. The approach will eventually permit the creation of MT specifications involving two complementary procedures : identification of the main questions a linguist has to answer when dealing with a specific MT issue and a complete inventory of the problems that may appear once the answers are found, an inventory corroborated by requests treated by a MT system.
Abstract FR:
Le développement de la traduction automatique implique non seulement des documents plus variés, mais aussi de plus en plus de langues. Or, le nombre croissant de langues suppose une plus grande diversité linguistique à traiter et donc une augmentation significative des difficultées de traduction. Dans cette thèse, les problèmes de traduction sont appréhendées a priori en fonction des différences entre langues. En partant de l'idée que toutes les différences interlinguistiques ne sont pas problématiques pour la traduction, le critère de sélection retenu est la notion de marquage (redéfinie en fonction des exigences de la traduction automatique - TA) associée à celle de classes de comportement. L'objet de l'étude a été restreint au genre et au nombre et à trois langues : français, anglais et roumain. Le modèle proposé, inspiré par la morphologie contrastive et la typologie, vise à repérer les types de difficultés qui peuvent apparaître, pour un couple de langues donné, dans la traduction automatique du genre et du nombre. Le repérage de ces difficultés reposera sur l'assignation de chaque nom à une classe de comportement dans chaque langue, associée à l'étude des interactions des différentes classes de comportement. Cette démarche permet la réalisation d'un "cahier des charges" pour la TA, impliquant deux démarches complémentaires : identification des questions principales que le linguiste doit se poser lorsqu'il traite une question dans une approche de type TA et inventaire des problèmes concrets qui peuvent apparaître une fois obtenues les réponses, inventaire corroboré par des requêtes soumises à des logiciels de traduction.