Analyse informatique des signes typographiques pour la segmentation de textes et l'extraction automatique de citations : réalisation des applications informatiques : SegATex et CitaRE
Institution:
Paris 4Disciplines:
Directors:
Abstract EN:
The present work comes within the scope of a project carried out by the LaLIC research team (Langage, Logique, Informatique et Cognition). From a computer perspective this work is of an operational value and it aims at defining the requirements in terms of text segmentation and semantic interpretation of typographic marks for filtering information. The final outcome of this work are the SegATex and CitaRE applications. We proceeded in defining the value of punctuation marks and followed with a historical study of punctuation. We took special interest in the origins of the graphical form of the comma and its eventual relation with the waw, a particle in Arabic language. The SegATex application (Automatic Segmentation of Texts), as a computer module, is intended to prepare (to tag) a text for an automatic language processing which includes text segmentation in sections, sub sections, paragraphs, sentences, titles and enumeration. In the third part of the thesis we treat the "automatic extraction of quotations". The outcome of this part is the CitaRE system (Citation : Repérage et Extraction). We have followed the method of contextual exploration in order to comply with the requirements for filtering and extracting knowledge (the quotation).
Abstract FR:
Ce travail s'inscrit dans le cadre d'un projet mené au sein de l'équipe LaLIC (Langage, Logique, Informatique et Cognition). Il est opérationnel d'un point de vue informatique et a pour objectif de définir le besoin en terme de segmentation de texte, et d'interprétation sémantique de marqueurs typographiques, pour le filtrage d'information. Il a abouti à la réalisation de deux applications SegATex et CitaRE. Nous avons défini les valeurs des signes de ponctuation, et nous nous sommes intéressé à l'étude historique de la ponctuation en particulier à l'origine de la forme graphique de la virgule et son éventuelle relation avec une autre particule (le waw) dans la langue arabe. L'application SegATex (Segmentation Automatique de Textes) est destinée en tant que module informatique à préparer (baliser) le texte pour un traitement automatique de langue. Parmi ces traitements, figurent la segmentation de textes en sections, sous-sections, paragraphes, phrases, titres et énumérations. La troisième partie de cette thèse traite de " l'extraction automatique de la citation " qui a abouti à la réalisation du système CitaRE (Citation : Repérage et Extraction). Afin de répondre aux besoins de filtrage et d'extraction de connaissances (la citation), nous avons adopté la méthode d'exploration contextuelle.