Un module NooJ pour le traitement automatique du chinois : formalisation du vocabulaire et des têtes de groupes nominaux
Institution:
BesançonDisciplines:
Directors:
Abstract EN:
This study presents the development of a module for the automatic parsing of Chinese that will allow to recognize automatically lexical units in modern Chinese, as well as central Noun Phrases in texts. In order to reach these two principle objectives, we solved the following problems: 1) identify lexical units in modern Chinese ; 2) determine their categories ; 3) describe certain local syntactic structures as well as the structure of central Noun Phrases. Firstly we constructed a corpus regrouping literary and journalistic texts published in the XXth century. These texts are written in modern Chinese with traditional characters. Thanks to textual data, we could collect linguistic information such as lexical units, syntagmatic structures or grammatical rules. Then, we constructed several electronic dictionaries in which each entry represents a lexeme, with which is associated linguistic information such as its lexical category, its semantic distributional class or certain formal properties. At this stage, we tried to identify the lexical units of Chinese lexicon and their categories in order to list them. Thanks to this list, an automatic lexical analyzer can process various types of lexical units in bloc, without deconstructing them in components. For instance, the lexical parser processes the following lexical units as atomic units : 理髮lǐfà / fǎ <operate-hair> ‘have a haircut’. 放假fàngjià <distribute-vacation> ‘have vacation’. 刀子口dāozikǒu <knife-mouth> ‘straight talk’. 研究員yánjiū / jiù yuán <research-K> ‘researcher’. 翻譯系統fānyì xìtǒng <translate-system> ‘translation system’. 浪漫主義làngmàn zhŭyì <romantic- -ism> ‘romanticism’. Then, we described formally certain local syntagms and five types of central Noun Phrases. Finally, we used this Chinese module to study thematic evolution in literary texts
Abstract FR:
Cette étude présente le développement du module d’analyse automatique du chinois qui permet de reconnaître dans les textes les unités lexicales en chinois moderne puis les groupes nominaux noyaux. Pour atteindre ces deux objectifs principaux, nous devions résoudre les problèmes suivants : 1) identifier les unités lexicales en chinois moderne ; 2) déterminer leurs catégories ; 3) décrire la structure de syntaxe locale et des groupes nominaux noyaux. C’est ainsi que nous avons été amenée à constituer d’abord un corpus regroupant des textes littéraires et journalistiques publiés au XXe siècle. Ces textes sont écrits en chinois moderne avec des caractères traditionnels. Grâce à ces données textuelles, nous avons pu recueillir des informations linguistiques telles qu’unités lexicales, structures syntagmatiques ou règles grammaticales. Ensuite, nous avons construit des dictionnaires électroniques dans lesquels chaque unité lexicale est représentée par une entrée, à laquelle sont associées des informations linguistiques telles que catégories lexicales, classes de distribution sémantique ou descriptions formelles de certaines formes lexicales. À ce stade, nous avons cherché à identifier les unités lexicales du lexique chinois et leurs catégories en les recensant. Grâce à cette liste, l’analyseur lexical peut traiter des unités lexicales de différents types, en bloc, sans les découper en composants. Ainsi, on traite les unités lexicales suivantes comme des unités atomiques : 理髮lǐfǎ <arranger-cheveux> ‘faire la coiffure’. 放假fàngjià <distribuer-vacance> ‘être en vacances’. 刀子口dāozikǒu <couteau-bouche> ‘parole cruelle’. 研究員yánjiū / jiù yuán <effectuer des recherches-K> ‘chercheur’. 翻譯系統fānyì xìtǒng <traduire-système> ‘système de traduction’. 浪漫主義làngmàn zhŭyì <romantique- -isme> ‘romantisme’. Puis, nous avons décrit de manière formelle un certain nombre de syntagmes locaux, ainsi que cinq types de groupes nominaux noyaux. Enfin, nous avons utilisé le module chinois ainsi développé pour étudier l’évolution thématique dans les textes littéraires