Description et détection automatique de structures de texte
Institution:
Paris 11Disciplines:
Directors:
Abstract EN:
Information Retrieval Systems are not well adapted for text browsing and visualization (dynamic summarization). But this one is always necessary for the user to evaluate the Information Retrieval (IR) systems are not well adapted for text browsing and visualization (dynamic summarization). But this is always necessary for users to evaluate the relevance of a document. Our work follows a Web Semantic perspective. We aim at annotating documents with abstract information about content description and discourse organization in order to create more abilities for IR systems. Descriptive information concerns both topic identification and semantic and rhetorical classification of text extracts (With information such as "Our aim is. . . ", "This paper deals with. . . "). We implement a system to identify topical linguistic expressions based on a robust anaphora system and lexical chains building. We also propose a method in order to automatically acquire meta-discursive material. We perform the detection of the text structure thanks to two complementary approaches. The first one offers a top-down analysis based on the segmentation provided by lexical cohesion and by linguistic markers such as frame introducers. The second one is concerned by local text organization by the detection of informational relations (coordination and subordination) between subsequent sentences.
Abstract FR:
Les systèmes de recherche d'information ne sont pas adaptés pour une navigation intra-documentaire (résumé dynamique). Or celle-ci est souvent nécessaire pour évaluer la pertinence d'un document. Notre travail se situe dans une perspective de web sémantique. Notre objectif est d'enrichir les documents pour fournir aux systèmes, voire directement à l'utilisateur, des informations de description et d'organisation du contenu des documents. Les informations de nature descriptive concernent d'une part l'identification des expressions thématiques du discours, et d'autre part l'identification du type d'information sémantique ou rhétorique contenu dans une phrase donnée (par exemple la présentation du but de l'auteur, l'énonciation d'une définition, l'exposition d'un résultat, etc. ). L'identification des thèmes implémente deux approches distinctes l'une fondée sur la résolution d'anaphores, la seconde sur la construction de chaînes lexicales. En ce qui concerne l'identification des types d'information des phrases, nous proposons une méthode d'acquisition automatique de marques méta-discursives. L'objectif de détection de l'organisation du discours est envisagé selon deux approches. La première consiste à une analyse globale descendante du texte, en combinant une segmentation par cohésion lexicale, et un repérage de marques linguistiques de type introducteur de cadres (e. G. "En ce qui concerne X, En Corée, D'abord etc. "). La seconde approche vise une détection plus fine de l'organisation du discours en identifiant les relations de dépendance informationnelle entre les phrases (subordination et coordination).