thesis

Enchancing LDA for Ontology Learning

Defense date:

June 3, 2021

Edit

Institution:

Nantes

Disciplines:

Authors:

Abstract EN:

This dissertation aims to enhance LDA’s utilities of conceptualizing terms towards ontology learning, where similar terms are clustered to the predefined core concepts. We explored the classic workflow of term clustering and studied the clustering impacts of the terms representation techniques. Comparatively, we proposed the LDA based clustering strategy, where the prior knowledge embedding techniques are applied to semisupervise the LDA for the more satisfying clusters. In addition, we built up the taxonomic structure of the ontology, by internally applying the subcategorization frames over noun phrases and externally benefitting from the knowledge bases. The experiment results showed that our proposed LDA based clustering strategy outperformed the majority of the clustering works in the classic workflow. Our optimal prior knowledge embedding approach exceeded the performance of basic LDA and Seeded LDA but dropped behind the Z-label LDA. This dissertation suggests that the LDA based clustering strategy could contribute to the anticipating term conceptualizations for ontology learning.

Abstract FR:

Cette thèse vise à tirer profit du modèle sémantique LDA pour améliorer la conceptualisation des termes en vue de l’apprentissage d’ontologie à partir de textes, où des termes similaires sont regroupés en fonction de concepts de base prédéfinis. Nous avons exploré le cadre classique du regroupement de termes et étudié l’impact des techniques de représentation des termes. Nous avons proposé des stratégies de regroupement de termes (term clustering) basées sur LDA, où des connaissances préalables sont utilisées pour semisuperviser LDA. De plus, nous avons construit la structure taxonomique de l’ontologie, en appliquant en interne les cadres de sous-catégorisation sur les phrases nominatives et en bénéficiant en externe des bases de connaissances. Notre stratégie de regroupement basée sur LDA a été plus performante que la majorité des travaux de regroupement dans le cadre classique. Notre approche optimale d’intégration des connaissances préalables a dépassé les performances de LDA de base et de seeded LDA. Le regroupement basé sur LDA pourrait contribuer à améliorer la formation des concepts à partir de termes pour l’apprentissage d’ontologie.