thesis

Deteccion y extraccion de neologismos semanticos especializados : un acercamiento mediante clasificacion automatica de documentos y estrategias de aprendieaje profundo

Defense date:

Oct. 31, 2019

Edit

Institution:

Avignon

Disciplines:

Abstract EN:

In the field of neology, different methodological approaches for the detection and extractionof semantic neologisms have been developed using strategies such as word sensedisambiguation and topic modeling, but there is still not a proposal for a system for thedetection of these units. Beginning from a detailed study on the necessary theoreticalassumptions required to delimit and describe semantic neologisms, in this thesis, we proposethe development of an application to identify and extract said units using statistical,data mining and machine learning strategies. The proposed methodology is based ontreating the process of detection and extraction as a classification task, which consists onanalyzing the concordance of topics between the semantic field from the main meaningof a word and the text where it is found. To build the architecture of the proposed system,we analyzed five automatic classification methods and three deep learning based wordembedding models. Our analysis corpus is composed of the semantic neologisms of thecomputer science field belonging to the database of the Observatory of Neology of thePompeu Fabra University, which have been registered from 1989 to 2015. We used thiscorpus to evaluate the different methods that our system implements: automatic classification,keyword extraction from short contexts, and similarity list generation. This firstmethodological approach aims to establish a framework of reference in terms of detectionand extraction of semantic neologisms.

Abstract FR:

Dans le domaine de la néologie, différentes approches méthodologiques ont été développées pour la détection et l’extraction de néologismes sémantiques. Ces approches utilisent des stratégies telles que la désambiguïsation sémantique et la modélisation thématique,mais il n’existe aucun système complet de détection de néologismes sémantiques.Ainsi, nous proposons dans cette thèse le développement des algorithmes qui permettent d’identifier et d’extraire les néologismes sémantiques au moyen de méthodes statistiques,d’extraction d’information et d’apprentissage automatique. La méthodologie proposée est basée sur le traitement du processus de détection et d’extraction en tant que problème de classification. Il consiste à analyser la proximité des thèmes entre le champ sémantique de la signification principale d’un terme et son contexte. Pour la construction du système nous avons étudié cinq méthodes de classification automatique supervisée et trois modèles pour la génération de représentations vectorielles de mots par apprentissage profonde. Le corpus d’analyse est composé de néologismes sémantiques du domaine informatique appartenant à la base de données de l’Observatoire de Néologie de l’Université Pompeu Fabra, enregistrés de 1989 à 2015. Nous utilisons ce corpus pour évaluer les différentes méthodes mises en oeuvre par le système : classification automatique, extraction de mots à partir de contextes courts et génération de listes de mots similaires. Cette première approche méthodologique cherche à établir un cadre de référence en termes de détection et d’extraction de néologismes sémantiques.