Grammaires modulaires de l'arabe : modélisations, mise en oeuvre informatique et stratégies
Institution:
Paris 4Disciplines:
Directors:
Abstract EN:
In this work we expound, in a unified theoretical frame, the main linguistic models and the associated parsers we have developed in the D. A. T. A. T (département d'analyse et de traitement automatique des textes, IREMAN-CNRS). The most salient feature of these parsers is that they can work without a lexicon but can be enhanced by the introduction of selective lexicons. Our aim is then to design a syntactic monitor for the morphological program in order to reduce different ambiguities which are inherent to Arabic writing systems. In order to achieve accurate descriptions we have designed modular programs that we can modify according to the "complexification" of linguistic data and an evaluation method for grammar. The already existing morphological parser without a lexicon can be applied to non-vocalized as well as vocalized Arabic texts in order to extract roots, to vocalize partially automatically and hierarchize ambiguities. In this sense this parser constitutes a powerful tool for research in linguistic engineering itself: the method of grammar variations will allow the design of compact modular grammars applicable to various needs and research areas. Our aim is to create a generator for linguistic applications rather than the mere applications themselves. For example optical character recognition (OCR) and speech processing require compact linguistic modules of verification. The use of enormous lexicons may be a handicap in some computational configurations. Our method allows the calculation of the optimum grammar.
Abstract FR:
Dans cette thèse nous exposons dans un cadre théorique unifie les principaux modèles linguistiques et les analyseurs associes que nous avons développés au DATAT (département d'analyse et de traitement automatique des textes, IREMAN-CNRS). Ces analyseurs ont la particularité de pouvoir fonctionner sans lexique, ce qui ne signifie pas que l'on s'interdise par la suite toute interaction avec un lexique donné. On proposera donc des analyseurs modulables dont l'intérêt sera de mettre en évidence la régularité du système morphologique de base de l'arabe. Ces analyseurs seront couplés à un moniteur syntaxique dont le rôle sera d'optimiser l'analyse morphologique et de réduire la part d'ambiguïté propre au système d'écriture de l'arabe. Afin d'affiner les descriptions linguistiques on a conçu des programmes modulaires que l'on peut modifier au fur et à mesure que se "complexifient" les données linguistiques. Une technique d'expérimentation et une méthode d'évaluation des grammaires sont proposées. Les applications les plus importantes sont le controle orthographique, la vocalisation automatique et la hiérarchisation des ambiguïtés. Ce logiciel doit surtout être compris comme un outil d'ingénierie linguistique permettant de mettre en œuvre la méthode de variation de grammaire en vue de la détermination de l'algorithme optimum. La reconnaissance optique des caractères ou la reconnaissance vocale supposent par exemple la mise au point de modules de vérification linguistiques compacts dont notre méthode permettra de calculer la grammaire sous-jacente.