thesis

Éléments pour un système de reconnaissance de contextes thématiques dans l'exploration d'un corpus textuel

Defense date:

Jan. 1, 1992

Edit

Institution:

Paris 4

Disciplines:

Directors:

Abstract EN:

This study is made in the field of computer assisted text analysis and exploration. Corpora data bases, (and here Frantext is no exception) generally go no further than accessing surface structure: the aim here is to outline a thematic lexicological knowledge-base allowing a partial exploration of deep structures by automatic recognition of conceptually associated words. The on-going data base described here will be regularly enriched with the lists obtained from analogy notes in dictionaries, from specific subject-oriented studies and more particularly from semi-automatized context selection made from constantly up-dated specific corpora. Sematic, stylistic and chronological criteria will be taken into account and incorporated into multiple choice menus which best match query and answer. The main obstacle, besides homography and polysemy, is identification technique. Bringing together pertinent correlates raises a number of methodological questions, especially on those relations that can go towards linking meanings. Coupled with a full-text exploration, the data base may be expected to produce collections of contexts (quotations, examples, attestations) centered on a given theme. A simulation made from the concept ennui ("boredom") gives an overview of the way this may be done.

Abstract FR:

L'étude se situe dans le cadre de l'analyse et de l'exploration du texte assistée par ordinateur. Les bases de données textuelles, notamment Frantext, se limitent habituellement au simple accès à des structures de surface: on propose ici les éléments d'une base de connaissances lexicologique thématique qui doit permettre d'explorer en partie des structures profondes par la reconnaissance automatique de vocables conceptuellement associables. Cette base, évolutive, sera régulièrement alimentée par les listes que fournissent les rubriques analogiques des dictionnaires, les études particulières à un concept et surtout l'exploration contextuelle semi-automatisée de corpus spécifiques constamment complètes: des critères sémantique, stylistiques et chronologiques seront pris en compte, et affiches dans des menus a options multiples qui devront garantir la meilleure adéquation possible des résultats à la requête. Le problème se pose du mode de repérage, et de l'obstacle que constituent la polysémie et l'holographie. La collecte des corrélats pertinents suscite un certain nombre de remarques de type méthodologique impliquant notamment l'examen des relations qui lient virtuellement les signifies. Couplée à un logiciel d'exploration du plein-texte, la base ainsi constituée devra permettre d'obtenir en temps réel des collections de contextes (citations, exemples, attestations) centrées autour d'un thème donné. Une simulation à partir du concept "ennui" donne un premier aperçu de la démarche.