Méthodes et algorithmes de représentation et de compression de grands dictionnaires de formes
Institution:
Université Joseph Fourier (Grenoble)Disciplines:
Directors:
Abstract EN:
Pas de résumé disponible.
Abstract FR:
Cette these concerne l'etude de differentes techniques qui peuvent etre mises en oeuvre pour representer et comprimer de tres grands dictionnaires de formes multilingues utilisables dans certaines applications de taln (detection/correction orthographique, reconnaissance de la parole, etc. ). La premiere partie de la these situe d'abord l'objet de cette etude et montre pourquoi les approches par dictionnaires de formes sont parfois plus adaptees que les approches par grammaires lors de la construction de certaines applications multilingues en taln. Nous faisons ensuite le point sur les methodes de rangement et de compression de dictionnaires et nous montrons, experiences a l'appui, que a part les methodes utilisant les automates d'etats finis deterministes, la plupart des methodes classiques sont peu efficace pour comprimer de grands dictionnaires. La seconde partie introduit la compression paradigmatique, une nouvelle approche de compression de dictionnaire de formes qui procede par factorisation d'un ensemble d'affixes appeles paradigmes. Dans une premiere section theorique, nous discutons les problemes poses par cette approche. Dans une seconde section, nous proposons de nouveaux algorithmes de compression qui n'utilise que des connaissances morphologiques elementaires. L'experimentation de la methode sur de grands dictionnaires de formes multilingues a montre que l'on peut se ramener, a partir d'un dictionnaire de formes initial et pour certaines langues, a un dictionnaire comprime ayant pratiquement la meme taille que le dictionnaire de lemmes, et cela sans l'intervention d'un linguiste. La methode a permis en outre d'ameliorer les resultats de compression des approches existantes, quelles que soient les structures internes utilisees. La troisieme partie presente une approche orthogonale a la seconde methode. Elle consiste a chercher l'automate ndet minimal qui reconnait l'ensemble des chaines d'un dictionnaire de