Typologie sémantique des prédicats de parole
Institution:
Paris 13Disciplines:
Directors:
Abstract EN:
With the enormous amount of electronically avaible information on the internet, the development of information extraction technology becomes and more important. It requires new tools to structure and analyse textual data that help users in accessing and evaluating the information they are looking for. It is the linguist' task to create terminological databases and thesauri for this application. The research presented in this thesis is situated in the domain of Natural Language Processing (NLP), in which the lexicon plays a central role. Apart from traditional lexicographical approaches, the majority of NLP applications relies on syntactic information encoded in the lexicon, as for example in the LADL electronic dictionaries. Although this is an appropriate approach it is to some extent insufficient because it does not take into account the semantic of words and their ambiguity. For this, one needs to build dictionaries that relate syntax and semantics. . .
Abstract FR:
On constate actuellement un engouement général pour la recherche d'informations dans les textes, dû sans doute à la disponibilité d'une masse considérable d'informations sur le réseau internet. Ces sources textuelles sous forme éléctronique nécessitent de nouveaux outils capables d'analyser et de structurer des documents en vue de permettre à des utilisateurs non-experts de les consulter et/ou de les évaluer. Cet objectif requiert la confection de bases terminologiques ou de thésaurus construits par le linguiste. Cette thèse s'inscrit dans le cadre du traitement automatique du langage (TALN). Le lexique y joue un rôle central. En dehors des traditionnelles approches lexicographiques destinées au grand public, la plupart des applications en traitement automatique reposent sur les informations syntaxiques qu'on peut extraire du lexique, comme par exemple les dictionnaires électroniques du LADL. Ces travaux constituent une approche fructueuse pour le traitement automatique mais insuffisante quand il s'agit de prendre en compte les interrogations de nature sémantique, comme, par exemple la polysémie des prédicats. D'où la nécessité des dictionnaires reliant étroitement sémantique et syntaxe. L'objet de cette thèse est de mettre au point théoriquement et de décrire des classes sémantiques des prédicats, plus particulièrement des prédicats de parole. Ils'agit des verbes, des noms et des adjectifs qui impliquent un "dire" et dont nous avons fait le recensement le plus exhaustif possible. Le but de la typology est de présenter les données de sorte que l'on puisse analyser ou générer automatiquement toutes les phrases possibles construites autour d'un prédicat donné. La méthode adoptée allie la sémantique et la syntaxe. Les structures syntaxiques sont determinées par le contenu sémantique des prédicats, de sorte qu'il est patent que ces deux niveaux sont étroitement imbriqués. Les prédicats de parole sont d'une extrême diversité sémantique (prédicat d'ordre, d'information, de rappel, d'expression de sentiment, d'erreurs de prononciation, etc. ). Ces classes cependant déterminent une structure argumentale qui leur est propre. Chacune d'entre elles est décrite en extension, de sorte que nous établissons des listes sémantiquement homogènes avec des schémas d'arguments identiques.