thesis

SVETLAN', un système de structuration du lexique guidé par la détermination automatique du contexte thématique

Defense date:

Jan. 1, 2001

Edit

Institution:

Paris 11

Disciplines:

Abstract EN:

Semantic knowledge is mandatory for Natural Language Processing. Unfortunately, classifications that have universal goals are an utopia. There exists systems that extracts semantic knowledge from specialized texts but it is well known that it is not possible to do such an extraction from texts said to be of "general" language. The goal of this doctoral dissertation is to show that this idea is false. We show that a thematic analysis of non-specialized texts (newspapers, newswires or HTML pages gathered from the Web) usually allows to reduce the problem to a classical one where the analysis of a technical corpus is done, but where the human interventions are limited. With our approach, the theme of text segments is detected by the statistical analysis of word distributions, designed notions of similarity and aggregation. They allow to aggregate the words of similar segments to build thematic domains where higher weighted words describe the theme. We then group the words that appear as the same argument of the same verb in the various text segments belonging to a theme. That forms classes of words. We have implemented our model in a system called SVETLAN' which has been tested on several French and English million words corpus. The empirical analysis of the results shows that, as anticipated, words are usually in a strong mutual semantic relation in the classes that are obtained, in the context determined by the theme. Human judgment of word classes is not very consistent. So, we indirectly validate the semantic knowledge obtained by SVETLAN' in using it in a request expansion task in order to improve the results of a natural language question answering system.

Abstract FR:

Des connaissances sémantiques sont obligatoires pour le Traitement Automatique des Langues. Malheureusement, les classifications à visée universelle sont une utopie. Il existe des systèmes d'extraction de connaissances sémantiques des textes de spécialité par des approches terminologiques mais il est largement reconnu qu'il n'est pas possible d'effectuer une telle extraction de textes de la langue dite " générale ". Cette thèse a pour but de montrer que cette idée est fausse. Nous montrons qu'une analyse thématique de textes non spécialisés (journaux, dépêches de presse en texte intégral ou pages HTML moissonnées sur le Web) permet la plupart du temps de se ramener dans le cadre d'un problème classique de traitement de corpus spécialisé, tout en nécessitant des interventions humaines très réduites. Dans notre approche, le thème des segments de textes est détecté par l'analyse statistique des distributions des mots. Après avoir défini des notions de similarité et d'agrégation, les mots des segments similaires sont agrégés pour former des domaines thématiques dans lesquels les mots de poids élevés décrivent un thème. On regroupe les noms qui apparaissent comme argument d'un même verbe dans les divers segments de texte appartenant à un certain thème, ce qui forme des classes. Notre argumentation est implémentée dans un système informatique. SVETLAN', qui a été testé sur des corpus de plusieurs millions de mots en français et en anglais. L'analyse empirique des résultats montre que, comme prévu, les mots sont très souvent en relation sémantique forte les uns avec les autres dans les classes obtenues, et ce dans le contexte déterminé par le thème. Le jugement humain de classes n'étant pas suffisamment sûr, nous validons de manière indirecte les connaissances acquises par SVETLAN' en les utilisant dans une tâche d'extension de requêtes en vue de l'amélioration des performances d'un système de réponse à des questions en langue naturelle.