Méthodes de la statistique textuelle
Institution:
Paris 3Disciplines:
Directors:
Abstract EN:
A l'intersection de plusieurs disciplines, méthodes de la statistique textuelle présente un bilan de recherches consacre a l'étude statistique du vocabulaire. Le premier volume est consacre a la définition des unités textuelles, a la présentation et a l'adaptation au domaine des études textuelles de plusieurs méthodes d'analyse statistique ainsi qu'a l'application de ces méthodes a différents domaines de recherche utilisant le texte. Un même ensemble de méthodes lexico métriques permet, malgré la diversité des domaines abordés, de mettre en évidence des contrastes dans la ventilation des formes et des segments qui trouvent des interprétations pertinentes pour chacun des corpus soumis à comparaison. Les études réalisées sur des séries textuelles chronologiques mettent en évidence l'importance d'un même phénomène lie à l'évolution d'ensemble du vocabulaire au fil du temps. La prise en compte de la variable temps permet de mieux caractériser les périodes ou les groupes de périodes successives, en fonction du vocabulaire qu'elles emploient. Des coefficients calculés a partir des sous-fréquences de chacune des unités textuelles (formes et segments répétés du corpus) permettent de mettre en rapport les périodisations empiriques obtenues sur la base de l'analyse chronologique du stock lexical avec les découpages a priori, réalisés a partir des dates importantes autour desquelles le corpus a été réuni.
Abstract FR:
Methods for textual statistics, a multidisciplinary work, presents a critical overview of statistical studies on vocabulary. The first part is devoted to the definition of textual units and to the adaptation of a set of statistical methods (mainly multidimensional statistical methods) to textual studies. That set of lexicometric methods has also been used in various fields dealing with textual data. Beyond the diversity of the domains, lexicometrical methods reveal contrasts between distributions of forms and repeated segments throughout the texts. Those contrasts found pertinent interpretation in each case. Numerous studies performed over chronological textual series show the importance of a same phenomenon: qualitative and quantitative evolution of the vocabulary as time goes by. Taking into account time-variable leads to a better characterization of the successive time periods, or groups of periods, based upon the vocabulary they use. Coefficients calculated on the basis of the distribution of textual units (forms and repeated segments) through the different periods of the corpus, lead to compare the empirical periodizations resulting from chronological analysis of the lexical amount with a priori periodizations based on important dates of the period covered by the corpus.