
Méthodes pour informatiser des langues et des groupes de langues "peu dotées"

Defense date:

Jan. 1, 2004




Abstract EN:

In 2004, less than 1% of the 6800 languages of the world profits from a high level of computerization, including a broad range of services going from text processing to machine translation. This thesis, which focuses on the other languages-the pi-languages- aims at proposing solutions to cure their digital underdevelopment. In a first part, intended to show the complexity of the problem, we present the languages' diversity, the technologies used, as well as the approaches of the various actrors : linguistic populations, software publishers, the United Nations, States. . . A technique for measuring the computerization degree of a language-the sigma-index-is proposed, as well as several optimization methods. The second part deals with the computerization of the Laotian language and concretely presents the result obtained for this language by applying the methods described previously. The described achievements contributed to improve the sigma-index of the Laotian language by approximately 4 points, this index being currently evaluated with 8. 7/20. In this third part, we show that an approach by groups of languages can reduce the computerization costs thanks to the use of a modular architecture associating existing general softaware and specific complements. For the most language-related parts, complementary generic lingware tools give the populations the possibility to computerize their languages by themselves. We valited this method by applying it to the syllabic segmentation of Southeast Asian languages with unsegmented writings, such as Burmese, Khmer, Laotian and Siamese (Thai).

Abstract FR:

En 2004, moins de 1% des 6800 langues du monde bénéficie d'un niveau d"informatisation élevé, incluant un large éventail de services allant du traitement de textes à la traduction automatique. Cette thèse, qui s'intéresse aux autres langues-les langues-pi-s'attache à proposer des solutions pour remédier à leur sous-développement informatique. Dans une première partie destinée à montrer la complexité du problème, nous présentons la diversité des langues, les technologies utilisées, ainsi que les approches des différents acteurs impliqués : populations linguistiques, éditeurs de logiciels, Nations Unies, Etats. . . Un degré d'informatisation des langues-l'indice sigma-ainsi que plusieurs méthodes sont proposées. La seconde partie traite de l'informatisation du laotien et présente concrètement les travaux réalisés pour cette langue en appliquant les méthodes décrites précédemment. Les réalisations décrites ont permis d'améliorer l'indice-sigma de la langue laotienne d'environ 4 points, cet indice étant actuellement évalué à 8. 7/20. Dans la troisième partie, nous montrons qu'une approche par groupe de langues peut encore réduire les coûts d'informatisation grâce à l'utilisation d'une architecture modulaire associant des logiciels grand public et des compléménts spécifiques. Pour les parties intimement liées aux langues, des outils linguiciels génériques complémentaires permettent aux populations d'informatiser elles-mêmes leurs langues. Nous avons validé cette méthode en l'appliquant à la segmentation syllabique de langues à écritures non segmentées d'Asie du Sud-Est, telles que le birman, le khmer, le laotien et la siamois (thai͏̈).