thesis

Traitement morphologique des unités linguistiques du kabyle à l’aide de logiciel NooJ : Construction d’une base de données

Defense date:

Dec. 9, 2019

Edit

Institution:

Paris, INALCO

Disciplines:

Authors:

Abstract EN:

This work introduces the Kabyle language to the field of Natural Language Processing by giving it a database for the NooJ software that allows the automatic recognition of linguistic units in a written corpus.We have divided the work in four parts. The first part is the place to give a snapshot on the history of formal linguistics, to present the field of NLP and the NooJ software and the linguistic units that have been treated. The second part is devoted to the description of the process that has been followed for the treatment and the integration of Kabyle verbs in NooJ. We have built a dictionary that contains 4508 entries and 8762 derived components and some models of flexion for each type which have been linked with each entry. In the third part, we have explained the processing of nouns and other units. We have built, for the nouns, a dictionary (3508 entries, 501 derived components) that have been linked to the models of flexion and for the other units (870 entries including adverbs, prepositions, conjunctions, interrogatives, personal pronouns, etc.). The second and third part are completed by examples of applications on a text, this procedure has allowed us to show with various sort of annotations the ambiguities.Regarding the last part we have devoted it to ambiguities, after having identified a list of various types of amalgams, we have tried to show, with the help of some examples of syntactic grammars, some of the tools used by NooJ for disambiguation.

Abstract FR:

Il s’agit dans le présent projet d’initier la langue kabyle au domaine du traitement automatique des langues naturelles (TALN) en la dotant d’une base de données, sur le logiciel NooJ, permettant la reconnaissance des unités linguistiques d’un corpus écrit.Le travail est devisé en quatre parties. Dans la première nous avons donné un aperçu historique de la linguistique formelle et présenté le domaine du TALN, le logiciel NooJ et les unités linguistiques traitées. La deuxième est consacrée à la description de processus suivi dans le traitement et l’intégration des verbes dans NooJ. Nous avons construit un dictionnaire contenant 4508 entrées et 8762 dérivés et des modèles de flexion pour chaque type d’entrée. Dans la troisième nous avons expliqué le traitement des noms et des autres unités. Nous avons, pour les noms, construit un dictionnaire (3508 entrées et 501 dérivés) que nous avons reliés à leurs modèles de flexion et pour les autres unités (870 unités dont, adverbes, prépositions, conjonctions, interrogatifs, pronoms personnels, etc.), il s’agit seulement de listes (sans flexion).Chacune de ces deux parties (deuxième et troisième) est complétée par des exemples d’applications sur un texte, chose qui nous a permis de voir, à l’aide des annotations, les différents types d’ambiguïtés.Dans la dernière partie, après avoir dégagé une liste de différents types d’amalgame, nous avons essayé de décrire, à l’aide de quelques exemples de grammaire syntaxiques, l’étape de la désambiguïsation.