thesis

Algorithmes pour l'appariement des mots et des phrases de textes bilingues francais-anglais

Defense date:

Jan. 1, 1994

Edit

Institution:

Paris 11

Disciplines:

Authors:

Directors:

Abstract EN:

Pas de résumé disponible.

Abstract FR:

Nous abordons le probleme que pose la mise en correspondance automatique des phrases appartenant a des paires de textes bilingues. La methode que nous preconisons s'inspire de ce que ferait intuitivement une personne connaissant moyennement l'autre langue. Elle se fonde sur l'appariement des mots qui constituent les phrases en regard. Or, pour apparier correctement ces mots, il faut au prealable avoir apparie les phrases qui les contiennent. Il y a la en apparence un cercle vicieux. Nous montrons comment le casser. Nous decrivons les hypotheses que nous faisons d'une part, et les algorithmes qui en decoulent d'autre part. Les experimentations sont effectuees sur le couple de langues francais-anglais. Pour mesurer la validite des algorithmes proposes, deux protocoles experimentaux sont mis en place. Dans les deux cas on cherche a jumeler les phrases de deux textes dont on sait qu'ils sont traduction l'un de l'autre. Mais dans le premier en essayant de faire progresser de facon synchrone deux fenetres censees contenir a tout moment les phrases qui se correspondent. En cela, l'algorithme met a profit la connaissance apriorique que constitue la sequentialite des phrases que l'on essaie d'apparier. Dans le deuxieme, en comparant toutes les phrases des deux textes entre elles. L'algorithme est dans ce cas legerement simplifie, mais etant de facon previsible moins performant (choix plus difficile puisque portant sur la totalite des deux textes, alors que dans le premier cas sur seulement la taille des deux fenetres), il ne permet d'apprecier que mieux encore les limitations des hypotheses qui fondent le travail que nous presentons. Pour donner quelque fondement a caractere cognitif aux hypotheses que nous faisons, un autre protocole experimental est propose sous forme de jeu. L'idee est de voir si la competence humaine peut etablir les correspondances recherchees en partant, non pas evidemment de la donnee des phrases elles-memes, qui devront au contraire lui rester inconnues, mais seulement d'une representation matricielle intermediaire issue de leur comparaison deux a deux. Il s'agit donc de voir si la competence humaine peut, en reprenant le temoin, achever le travail de comparaison de la machine