Recherches sur le traitement informatique d’une langue turcique agglutinante : l’ouïghour
Institution:
Paris 8Disciplines:
Directors:
Abstract EN:
This study presents the characteristics, writing systems and structure of Uyghur language by doing a linguistic study. Our approach will consist of new trial models that facilitate the development and realization of Uyghur software tools, and contribute to the Uyghur information technology. More precisely, our study consists of four phases: Firstly, we are going to present the main issues of the study, characteristics of the language and its writing systems, especially the unification procedure of the Latin-Script Uyghur. Secondly, we briefly introduce some basic notions for the retrieval of information, and we will do a demonstration of named entities retrieval, using an extraction tool, in order to test concepts and theories that we are proposing. Then, we will discuss linguistic issues – mainly on the agglutinative aspect and morphological suffixation rules – which are applied during the implementation of prototype tools proposed in this study. Finally, we underline problems in natural language processing (NLP) created by Uyghur language and non-Uyghur supporting environments. We will discuss the existing difficulties and we will suggest innovative solutions to resolve such problems with the following fields: Standardization of Uyghur fonts and creation of a Unicode based Uyghur font, Implementation of system-level and browser-level input methods and - reation of multi-script converting tools, Realization of an online Uyghur – English dictionary, Implementation of a lexical generator based on the morphological suffixation rules of Uyghur, Design and creation of an suffix analyzer and explorer, Demonstration of Uyghur information retrieval, Implementation of a parser and spell checker
Abstract FR:
Cette étude présente les caractéristiques, les écritures et la structure de la langue ouïghoure en faisant une étude linguistique et en proposant de nouveaux modèles expérimentaux qui faciliteront le développement des outils informatiques et le traitement automatique de la langue afin de contribuer à l’informatisation de la langue ouïghoure. Plus précisément, notre étude consiste en quatre parties : la première partie présente les problématiques d’étude, les caractéristiques de la langue et des écritures, notamment le processus d’unification de l’écriture ouïghoure-latine ; la deuxième partie expose les notions de base d’extraction d’information et démontre la possibilité d’extraction d’entités nommées en utilisant un outil d’extraction, afin d’expérimenter les conceptions et les théories proposées ; la troisième partie est consacré à l’étude linguistique notamment sur l’aspect agglutinant de la langue et les règles morphologiques de suffixation qui seront appliquées pendant la réalisation des outils prototypes proposés dans cette thèse ; enfin la quatrième partie mettre en évidence les problématiques de traitement de la langue ouïghoure dans une situation où les systèmes d’exploitation ne supporte pas la langue ouïghoure. Dans cette partie, nous décrivons les difficultés existantes et nous proposerons des solutions innovantes afin de les résoudre dans les domaines suivants : Unification des polices ouïghoures et création d’une police ouïghoure basée sur l’Unicode, Implémentation des méthodes d’entrées au niveau système et au niveau navigateur, Création des convertisseurs multiécriture, Réalisation d’un dictionnaire ouïghour – anglais en ligne, Mise en place d’un générateur lexical basé sur les règles morphologiques de suffixation de l’ouïghour, Développement d’un analyseur et explorateur de suffixes, Démonstration d’extraction de l’information Implémentation d’un parseur et un correcteur d’orthographe