thesis

Inférences et explications dans les réseaux lexico-sémantiques

Defense date:

Dec. 5, 2019

Edit

Institution:

Montpellier

Disciplines:

Authors:

Abstract EN:

Thanks to the democratization of new communication technologies, there is a growing quantity of textual resources, making Automatic Natural Language Processing (NLP) a discipline of crucial importance both scientifically and industrially. Easily available, these data offer unprecedented opportunities and, from opinion analysis to information research and semantic text analysis, there are many applications.However, this textual data cannot be easily exploited in its raw state and, in order to carry out such tasks, it seems essential to have resources describing semantic knowledge, particularly in the form of lexico-semantic networks such as that of the JeuxDeMots project. However, the constitution and maintenance of such resources remain difficult operations, due to their large size but also because of problems of polysemy and semantic identification. Moreover, their use can be tricky because a significant part of the necessary information is not directly accessible in the resource but must be inferred from the data of the lexico-semantic network.Our work seeks to demonstrate that lexico-semantic networks are, by their connexionic nature, much more than a collection of raw facts and that more complex structures such as interpretation paths contain more information and allow multiple inference operations to be performed. In particular, we will show how to use a knowledge base to provide explanations to high-level facts. These explanations allow at least to validate and memorize new information.In doing so, we can assess the coverage and relevance of the database data and consolidate it. Similarly, the search for paths is useful for classification and disambiguation problems, as they are justifications for the calculated results.In the context of the recognition of named entities, they also make it possible to type entities and disambiguate them (is the occurrence of the term Paris a reference to the city, and which one, or to a starlet?) by highlighting the density of connections between ambiguous entities, their context and their possible type.Finally, we propose to turn the large size of the JeuxDeMots network to our advantage to enrich the database with new facts from a large number of comparable examples and by an abduction process on the types of semantic relationships that can connect two given terms. Each inference is accompanied by explanations that can be validated or invalidated, thus providing a learning process.

Abstract FR:

Grâce à la démocratisation des nouvelles technologies de communications nous disposons d'une quantité croissante de ressources textuelles, faisant du Traitement Automatique du Langage Naturel (TALN) une discipline d'importance cruciale tant scientifiquement qu'industriellement. Aisément disponibles, ces données offrent des opportunités sans précédent et, de l'analyse d'opinion à la recherche d'information en passant par l’analyse sémantique de textes les applications sont nombreuses.On ne peut cependant aisément tirer parti de ces données textuelles dans leur état brut et, en vue de mener à bien de telles tâches il semble indispensable de posséder des ressources décrivant les connaissances sémantiques, notamment sous la forme de réseaux lexico-sémantiques comme par exemple celui du projet JeuxDeMots. La constitution et la maintenance de telles ressources restent cependant des opérations difficiles, de part leur grande taille mais aussi à cause des problèmes de polysémie et d’identification sémantique. De plus, leur utilisation peut se révéler délicate car une part significative de l'information nécessaire n'est pas directement accessible dans la ressource mais doit être inférée à partir des données du réseau lexico-sémantique.Nos travaux cherchent à démontrer que les réseaux lexico-sémantiques sont, de par leur nature connexionniste, bien plus qu'une collection de faits bruts et que des structures plus complexes telles que les chemins d’interprétation contiennent davantage d'informations et permettent d'accomplir de multiples opérations d'inférences. En particulier, nous montrerons comment utiliser une base de connaissance pour fournir des explications à des faits de haut niveau. Ces explications permettant a minima de valider et de mémoriser de nouvelles informations.Ce faisant, nous pouvons évaluer la couverture et la pertinence des données de la base ainsi que la consolider. De même, la recherche de chemins se révèle utile pour des problèmes de classification et de désambiguïsation, car ils sont autant de justifications des résultats calculés.Dans le cadre de la reconnaissance d'entité nommées, ils permettent aussi bien de typer les entités et de les désambiguïser (l'occurrence du terme Paris est-il une référence à la ville, et laquelle, ou à une starlette ?) en mettant en évidence la densité des connexions entre les entités ambiguës, leur contexte et leur type éventuel.Enfin nous proposons de tourner à notre avantage la taille importante du réseau JeuxDeMots pour enrichir la base de nouveaux faits à partir d'un grand nombre d'exemples comparables et par un processus d'abduction sur les types de relations sémantiques pouvant connecter deux termes donnés. Chaque inférence s’accompagne d’explications pouvant être validées ou invalidées offrant ainsi un processus d’apprentissage.