thesis

Relations entre les codes de l'oral et de l'écrit : Contraintes et ambiguïtés

Defense date:

Jan. 1, 1997

Edit

Disciplines:

Authors:

Directors:

Abstract EN:

The aim of this thesis is to study the bidrectionnal relations between the writing and the oral codes. The material is an orthographic-phonetic transcription grammar toph (letter-to-sound), and its inverse grammar of phonetic-orthographic transcription phot (sound-to-letter). The formalism of the grammar toph was extended in order to enlarge its field of coverage of the language. Different tools of toph grammars logical analysis were developed in order to trace and modify the grammar to insure the consistency between the rules. A quantitative analysis primitive was constructed in order to validate the grammars' adequacy to the corpora from which they were induced. The inversion of a toph grammar in a phot grammar arose problematics which were formally defined to give a linguistic interpretation of the inversion of the letter-to-sound rules. It is shown that contextual constraints similar in nature to the linguistic constraints and introduced to the french toph grammar, could be transliterated in phot grammar, and that it is therefore possible to limit the multiple homophonic solutions issued from this process, which prevent the production of linguistically aberrant solutions. Finally, was built a method and tools to study a corpus of orthographically deviant words, the orthotel corpus. The results of this treatment, which corroborate the socio-linguistical typology proposed in literature, allow to consider several spelling correction methods based on real human productions.

Abstract FR:

Cette etude a pour objet l'etude des relations bidrectionnelles entre le code de l'ecrit et celui de l'oral. Le support de ce travail est une grammaire de transcription orthographique-phonetique toph (phonetisation), et sa grammaire inverse de transcription phonetique-orthographique phot (orthographisation). Le formalisme de la grammaire de phonetisation de toph a ete etendu pour permettre d'elargir son champ de couverture de la langue. Differents outils d'analyse logique des grammaires de phonetisation ont ete developpes pour tracer et modifier la grammaire afin d'assurer la coherence entre les regles. Des primitives d'analyse quantitative ont ete construites afin de valider l'adequation des grammaires aux corpus a partir desquels elles ont ete induites. Les problemes de l'inversion d'une grammaire toph en une grammaire d'orthographisation phot ont ete poses formellement dans le but d'une interpretation linguisitque de l'inversion des regles de phonetisation. Il est montre que des contextuelles, de nature similaire aux contraintes linguistiques qui ont ete introduites a la grammaire toph du francais, peuvent etre transcrites dans les processus d'orthographisation et qu'il est donc possible de limiter les solutions multiples homophoniques de l'orthographisation en empechant la production de solutions linguistiquement aberrantes. Enfin, ont ete mis au point une methode et des outils pour l'etude d'un corpus de mots deviants orthographiquement, le corpus orthotel. Les resultats de ce traitement, qui corroborent les typologies sociolinguistiques proposees dans la litterature permettent d'envisager plusieurs methodes de correction de l'orthographe basee sur des performances reelles de scripteurs humains.