thesis

Phonétisation automatique d'un lexique général du français : systémique et émergence linguistique

Defense date:

Jan. 1, 1995

Edit

Disciplines:

Authors:

Directors:

Abstract EN:

This study aims at describing relations between the orthographic code and the phonetic code in a french letter-to-phone system. Through the analysis of a large lexicon sample phonetic references of the "le petit robert 1" associated to the canonical forms of the icp lexicon "le 60 000", a systematic methodology stresses the optimal fonctionnement of units. The graphone, the minimal unit of logical operating, inferior to the grapheme, emerges from this analysis. Our concern is to show the linguistic validity of this unit. With the analysis of all the occurences of letters, whatever the locati ons of lexies, a toph grammar-lexicon of french was built, by bootstrapping on a primitive grammar. Each rule and each l exicon of this grammar was systematically studied, from the synchronic and diachronic points of view, which made them re levate in terms of linguistic descriptors. It is shown that the general lexicon of language includes sub-lexicons, defined by similar functional and etymological characteristics (e. G. Same input language, same usage). These sub-lexicon s cannot be related to an ideographic processing of language : they are described in phonographic relations sub-systems. This work finds applications in a text-to-speech and in automatic spelling errors correction.

Abstract FR:

Cette etude a pour objet une description des relations entre le code orthographique et le code phonetique dans un systeme de phonetisation automatique du francais. Par l'analyse d'un large lexique (les references phonetiques du petit robert 1 associees aux formes canoniques du 60 000 de l'icp), une methologie systematique met en evidence le fonctionnem ent optimal des unites liees par cette relation. Le graphone, unite minimale de fonctionnement logique inferieure au grapheme emerge de cette analyse. Nous en montrons la validite linguistique. A partir de l'analyse de toutes les occurrences des graphies, en toutes positions de lexies, une grammaire-lexiques toph du francais est construite par bootstrapping sur une grammaire de regles primitives. Chaque regle et chaque lexique de la grammaire a fait l'objet d'une etude diachronique et synchronique systematique qui valide leur pertinence en tant que descripteurs linguistiques. Il est ainsi montre que le lexique general de la langue inclut des sous-lexiques definis par des caracteristiques etymologiques et fonctionnelles comparables (meme langue-sourc e, meme usage, par exemple). Ces sous-lexiques ne peuvent etre relies a un fonctionnement ideographique de la langue : ils se decrivent dans des sous-systemes de relations phonographiques. Cette etude trouve une application en synthese de la parole et en correction automatique de l'orthographe.