thesis

Méthode de construction d'un réseau termino-conceptuel normalisé : Contribution à la construction d'ontologies à partir de textes

Defense date:

Jan. 1, 2013

Edit

Institution:

Paris 13

Disciplines:

Authors:

Abstract EN:

Since the late 1990s, texts have emerged as a precious source of knowledge for building ontologies that are at times a semantic framework of the Semantic Web and sometimes its bottleneck. In fact, texts carry stabilized and shared knowledge which are easier to access than questioning any expert. The use of texts doesn’t replace human expertise but allows the knowledge engineer to understand the domain to be modelled and initiate the work of modelling. Building domain ontologies from text is based on techniques of natural language processing (NLP) coupled with knowledge engineering techniques to construct a formal model describing knowledge shared in a specific domain. One of the challenges of the transformation from texts to ontologies, is to detect a vocabulary of the domain and its structure in the form of a thesaurus before its formalization and these difficulties that are inherent to exploitation of linguistic material and its normalization, caught our attention in this thesis. We propose a normalization method that transforms the linguistic material - as it was extracted from an acquisition corpus by NLP tools - in a semantic network that we call "termino-conceptual network" and that describes a normalized vocabulary of the domain : a disambiguated and structured vocabulary such that it is stabilized in the concerned domain. It is a network of unambiguous terms that are interconnected through taxonomic and associative relationships. It serves not only as the basis for building a domain ontology from texts but also as a thesaurus for annotating documents. This thesis was conducted within the European project ONTORULE (ontology meets business rules). Our approach fits within the overall ontological resources construction TERMINAE method that was initiated by the work of the TIA group (Terminology Intelligence Artificial). TERMINAE method is based on three knowledge levels - terminological, termino-conceptual and conceptual - to build domain ontologies from texts. The first step of terminology extraction allows the identification of the vocabulary mentioned in texts that serves as a starting point for building a formal model of the domain. The second normalization step transforms the original terminology network into a conceptual network. The final step of formalization ensures the transformation of termino-conceptual network to conceptual network that is represented in the form of an ontology. If the first step can be automated by using extraction tools, the other two require a disambiguation and modeling work that is largely based on human expertise. This thesis helps to refine the method by showing how TERMINAE decomposes the normalization work in different operations, how these operations are enchained and how to control the overall normalization process. It is indeed a difficult step for the knowledge engineer who, after the linguistic extraction phase, is facing a mass units to process, some of them are ambiguous and not all are relevant to the domain. To elaborate this normalization method, we are interested in : – enrichment of terminological network by taking into account also the named entities where TERMINAE method consideres essentially the terms ; – formalization of the knowledge structures that are manipulated in the building ontologies process as defined in TERMINAE method : we have precisely defined the knowledge structures manipulated and highlighted the correspondence links that allow deriving a knowledge structure from one another and navigating from one to the other ; – the definition of a normalization process of a terminological network into a termino-conceptual network that guides the knowledge engineer in detecting the domain vocabulary and his normalization choices : the terminological network consists of terminological units that are formed by terms and named entities, and terminological relationships that describe syntactic, lexical and specialized relationships ; indicators allow to follow the progress of the normalization work. This normalization approach has been experimented to evaluate the main contributions in this thesis. The ontologies created were used in the ONTORULE project for three different use-cases. They served as conceptual vocabularies for writing business rules related to different decision based systems but especially they were used to semantically annotate business documents and to guide the acquisition work of the database business rules from these texts.

Abstract FR:

Les textes se sont imposés depuis la fin des années 1990 comme une source précieuse de connaissances pour la construction de ces ontologies qui constituent à la fois l’ossature sémantique du web sémantique et son goulot d’étranglement. Les textes sont en effet porteurs de connaissances stabilisées et partagées qui sont plus faciles d’accès que les experts qu’on pourrait vouloir interroger. Le recours aux textes ne remplace pas l’expertise humaine mais elle permet à l’ingénieur de la connaissance de prendre connaissance du domaine à modéliser et d’amorcer le travail de modélisation. La construction d’ontologies de domaine à partir de textes repose sur des techniques de traitement automatique de la langue (TAL) couplées à des techniques d’ingénierie de connaissances pour aboutir à un modèle formel décrivant les connaissances partagées dans un domaine précis. L’un des enjeux du passage des textes à des ontologies est l’identification du vocabulaire du domaine et sa structuration sous la forme d’un thésaurus avant sa formalisation et ce sont les difficultés inhérentes à cette exploitation du matériau linguistique et à sa normalisation qui ont retenu notre attention dans ce travail de thèse. Nous proposons une méthode de normalisation qui permet de transformer le matériau linguistique – tel qu’il a été extrait d’un corpus d’acquisition par des outils de TAL – en un réseau sémantique que nous appelons « réseau termino-conceptuel » et qui décrit le vocabulaire normalisé du domaine, c’est-à-dire le vocabulaire désambiguïsé et structuré tel qu’il est stabilisé dans le domaine en question. C’est un réseau de termes non ambigus qui sont interconnectés à travers des relations taxonomiques et associatives. Il sert de base pour la construction d’une ontologie de domaine à partir de textes mais aussi de thesaurus pour l’annotation des documents. Cette thèse a été conduite dans le cadre du projet européen ONTORULE (ontology meets business rules). Notre approche s’inscrit dans le cadre global de la méthode de construction de ressources ontologiques TERMINAE qui a été initiée par les travaux du groupe TIA (Terminologie Intelligence Artificielle). Cette méthode TERMINAE repose sur trois niveaux de connaissances – terminologique, termino-conceptuel et conceptuel – pour la construction d’ontologies de domaine à partir de textes. La première étape d’extraction terminologique permet l’identification du vocabulaire mentionné dans les textes et sert de point de départ pour la construction d’un modèle formel du domaine. La deuxième étape de normalisation permet de transformer le réseau terminologique initial en un réseau termino-conceptuel. La dernière étape, de formalisation, assure la transformation du réseau termino-conceptuel en un réseau conceptuel représenté sous la forme d’une ontologie. Si la première étape peut être automatisée par des outils d’extraction, les deux autres nécessitent un travail de désambiguïsation et de modélisation qui repose en grande partie sur l’expertise humaine. Cette thèse a permis d’affiner la méthode TERMINAE en montrant comment décomposer le travail de normalisation en différentes opérations, comment enchaîner ces opérations et comment contrôler le processus global de normalisation. C’est en effet une étape difficile pour l’ingénieur de la connaissance qui se retrouve, à l’issue de la phase d’extraction linguistique, face à une masse d’unités à traiter, dont certaines sont ambiguës et qui ne sont pas toutes pertinentes pour le domaine. Pour élaborer cette méthode de normalisation, nous nous sommes intéressée dans cette thèse à : – l’enrichissement du réseau terminologique par la prise en compte notamment des entités nommées là où la méthode TERMINAE exploitait essentiellement les termes ; – la formalisation de structures de connaissances manipulées dans le processus de construction d’ontologies tel que posé dans la méthode TERMINAE : nous avons défini précisément les structures de connaissances manipulées et mis en évidence les liens de correspondance qui permettent de dériver une structure de connaissances à partir d’une autre et de naviguer de l’une à l’autre ; – la définition d’un processus de normalisation d’un réseau terminologique en un réseau termino-conceptuel qui permet de guider l’ingénieur de la connaissance dans la détection du vocabulaire du domaine et dans ses choix de normalisation : le réseau terminologique est constitué par des unités terminologiques qui sont des termes et des entités nommées et par des relations terminologiques décrivant des relations syntaxiques, lexicales et spécialisées ; des indicateurs permettent de suivre la progression du travail de normalisation. Cette approche de la normalisation a été testée dans le cadre d’expérimentations visant à évaluer les principales contributions dans cette thèse. Les ontologies créées ont été utilisées dans le cadre du projet ONTORULE sur trois cas d’usage différents. Elles ont servi de vocabulaires conceptuels pour l’écriture des règles métier de différents systèmes d’aide à la décision mais elles ont surtout été utilisées pour annoter sémantiquement les textes réglementaires et ainsi guider le travail d’acquisition des base de règles métier à partir de ces textes.