thesis

Approches catégoriques et non catégoriques en linguistique des corpus spécialisés : application à un système de filtrage d'information

Defense date:

Jan. 1, 2002

Edit

Institution:

Paris 10

Disciplines:

Authors:

Directors:

Abstract EN:

This thesis is set in the framework of corpus linguistic studies, centered on actual utterances, in specialised domains. By building on the theoretical and methodological grounding of data-oriented approaches in linguistics, this thesis aims at identifying and describing complex lexical units which are strongly correlated with well defined sub-topics: topical signatures. One of the achievements of this work is the description of a set of topical signatures for a subtopic of financial news extracts: corporate financial activities. The approach described in this thesis, building on classical distributional methods, also aims at evaluating non categorical and non logic-centered approaches, such as stochastic ones, in the process of identifying topical signatures. The extracted signatures serve as lexical resources, put to use by a selective information dissemination system: CORAIL. This system is the achievement of an industrial research project, funded by the French Ministry for Research and Industry.

Abstract FR:

Cette thèse s'inscrit dans le cadre des études linguistiques sur corpus, centrées sur les productions effectives, dans des domaines de spécialité. La thèse reprend les présupposés théoriques et les méthodes des approches guidées par les observables linguistiques, afin d'extraire des corpus étudiés des unités lexicales complexes fortement corrélées à des sous-thèmes clairement identifiés. Ainsi, la thèse aboutit à une description et à un recensement de ces unités lexicales complexes, appelées signatures thématiques, pour un sous-thème du domaine financier : les cessions et acquisitions de sociétés. Le travail d'analyse des corpus, faisant principalement appel à une approche distributionnelle classique, tente également d'évaluer l'apport d'approches non catégoriques et non logiques (essentiellement des approches statistiques) dans la détection de signatures thématiques. Les signatures identifiées servent de base à un système de filtrage d'information, déployé en milieu industriel : le système CORAIL, issu d'un projet de recherches financé par le Ministère de la Recherche et de l'Industrie.