thesis

Techniques génériques d'accumulation d'ensembles lexicaux à partir de ressources dictionnairiques informatisées multilingues hétérogènes

Defense date:

Jan. 1, 1998

Edit

Institution:

Grenoble INPG

Disciplines:

Directors:

Abstract EN:

Pas de résumé disponible.

Abstract FR:

Cette thèse étudie l'accumulation d'ensembles lexicaux structurés à partir de ressources dictionnairiques informatisées multilingues hétérogènes, et propose des techniques génériques pour sa réalisation. La récupération de ressources dictionnairiques, l'aspect passif de l'accumulation, consiste à convertir une ressource vers une forme computationnelle structurée, ce qui est primordial pour toute future exploitation. La difficulté vient de la complexité inhérente du dictionnaire, de la probabilité d'erreurs, de l'hétérogénéité des ressources, etc. Après une étude des travaux précédents, et d'importantes expérimentations, nous avons conçu et réalisé RÉCUPDIC, un système spécialisé pour la récupération dictionnairique, qui se compose de méthodes et d'outils puissants et faciles à utiliser. Il s'est montré efficace et pratique lors de la récupération d'une grande quantité de ressources de diverse complexité (environ 33 ressources, soit au total 1,7 millions d'articles dans 12 langues). La production de nouveaux ensembles lexicaux est l'aspect actif de l'accumulation : il s'agit de fabriquer automatiquement des unités lexicales organisées selon de nouvelles structures linguistiques, en masse, et à bon marché. Il ne semble pas qu'une approche générique à ce problème ait été proposée dans des travaux antérieurs. Notre système PRODUCDIC a été conçu et implémenté pour spécifier et réaliser des processus de production de façon générique et efficace. Comme résultat d'expérimentation, 12 «brouillons de dictionnaire» ont été fabriqués, avec un total de plus de 540 000 articles. Nous élaborons ensuite le concept d'accumulation en ligne : il s'agit de fabriquer des unités lexicales à la demande. Nous proposons aussi plusieurs niveaux d'abstraction pour la notion d'ensemble lexical. Cela nous permet de proposer un modèle d'organisation dynamique d'un système lexical. Pour résumer : ACCUMULATION = (RÉCUPÉRATION + PRODUCTION) (HORS LIGNE + EN LIGNE)