Du côté de chez Swann : analyse morpho-syntaxique semi-automatique et statistique d'un texte littéraire
Institution:
BesançonDisciplines:
Directors:
Abstract EN:
Our laboratory team the (LASELDI, of the University of Franche-Comté) works with automatic analysis of literary corpora. We labelled each linguistic unit (we consider 2 kinds of units: simple words and compound words) from the Proust's text "Du côté de chez Swann", by using two tools which were available to us : the Intex system and the DIATAG program. We designed a processing data sequence in order to build a corpus that is completely tagged (and disambiguated) whose labels are sufficiently rich. Then we associated to each linguistic unit its lemma, a morpho-syntactic category, and a flexional information. The different types of lexical ambiguities are solved either semi-automatically (by the main dictionaries and the local grammars) or manually to resolve complex ambiguities. Then we detailed the entire processing data sequences: pre-processing of the text, the creation of necessary lexical resources, and the construction of local grammar of disambiguation. An interactive program was used to manage residual ambiguities. These various processing data have allowed the tagging of 170 170 words of a text and presented a quality tagging (which was evaluated). We finally presented an application by creating a grammar of nouns groups and classifying the sentences of the corpora according to their structures. In the end, we propose a thematic analysis by using the methods of textual statistic. The factorial analyses which are a result of this processing data, (innovating in the sense that they are based on disambiguated occurrences) allowed us to validate certain intuitive analysis on the topic of time.
Abstract FR:
Notre thèse s'inscrit dans une problématique centrale du LASELDI : l'analyse automatique des corpus littéraires. Nous avons étiqueté chaque unité linguistique (mots simples et mots composés) du texte "Du côté de chez Swann" de Marcel Proust en utilisant deux outils mis à notre disposition : le système INTEX et le programme DIATAG. Nous avons conçu une chaîne de traitements afin de construire un corpus totalement étiqueté et désambigui͏̈sé, dont les étiquettes sont suffisamment riches. Nous avons associé ensuite à chaque unité linguistique, son lemme, une catégorie morpho-syntaxique, et une information flexionnelle. Les différents types d'ambigui͏̈tés lexicales sont résolus soit semi-automatiquement (par les dictionnaires prioritaires et les grammaires locales), soit manuellement pour résoudre les ambigui͏̈tés complexes. Nous détaillons ensuite toute la chaîne des traitements effectués : le pré-traitement du texte; la création des ressources lexicales nécessaires et la construction des grammaires locales de désambigui͏̈sation. Un programme interactif a servi à gérer les ambigui͏̈tés résiduelles. Ces différents traitements ont permis d'étiqueter les 170 710 mots du texte et de présenter un étiquetage de qualité (qui a été évalué). Nous avons enfin proposé une application en construisant une grammaire des groupes nominaux et en classant les phrases du corpus selon leur structure. Nous proposons enfin une analyse thématique en utilisant des méthodes de la statistique textuelle. Les analyses factorielles qui résultent de ce traitement (innovantes dans la mesure où elles s'appuient sur des occurrences désambigui͏̈sées) nous ont permis de valider certaines analyses intuitives sur le thème du temps.