thesis

Modeles statistiques et patrons morphosyntaxiques pour l'extraction de lexiques bilingues

Defense date:

Jan. 1, 1995

Edit

Institution:

Paris 7

Disciplines:

Authors:

Directors:

Abstract EN:

Pas de résumé disponible.

Abstract FR:

Notre travail s'inscrit dans le cadre general de l'extraction de ressources lexicales bilingues par des methodes statistiques. Il s'agit d'etablir des lexiques bilingues anglais-francais a partir de corpus techniques du domaine des telecommunications par satellite. Deux types d'entrees pour ces lexiques ont ete etudies: les mots simples et les noms composes terminologiques. Le traitement des mots simples repose essentiellement sur des modeles statistiques. Ces modeles sont toutefois insuffisants dans la mesure ou ils ne traitent pas des unites plus complexes telles que les noms composes terminologiques qui abondent dans les domaines techniques. Nous nous sommes alors interesse a la reconnaissance de ces composes terminologiques. Pour cela, nous avons eu recours a des structures morphosyntaxiques isolees dans le cadre de travaux sur la composition nominale anglaise et francaise. Nous avons ensuite mene une etude comparative entre les structures anglaises et francaises. Nous avons finalement etabli divers modeles pour aligner les termes anglais et francais entre eux. Dans cet alignement nous avons envisage trois approches. Dans la premiere, l'accent est mis sur les mots constituant les termes. Dans la deuxieme, les termes sont envisages dans leur globalite. Enfin, la derniere approche integre les resultats des deux precedentes. L'utilisation conjointe de donnees linguistiques et statistiques nous permet finalement d'obtenir des lexiques bilingues de bonne qualite