thesis

Une méthode d'analyse de données textuelles pour les sciences sociales basée sur l'évolution des textes

Defense date:

Jan. 1, 2005

Edit

Institution:

Tours

Disciplines:

Authors:

Directors:

Abstract EN:

Le but est d'apporter aux sociologues un outil informatique permettant l'analyse d'entretiens ouverts semi-directifs. Le traitement est en deux étapes : une indexation des entretiens suivi d'une classification. Les méthodes d'indexation habituelles reposent sur une analyse statistiques plus adaptées à des textes de contenu et de structure (textes littéraires, scientifiques,. . . ) marqués qu'à des entretiens limités à l'usage de peu de mots (1000 mots pour des textes de discussion). Partant de l'hypothèse que l'appartenance sociologique induit fortement la forme du discours, nous évaluons la structure et l'évolution des textes en proposant de nouvelles représentations des textes (image, signal) qui conduisent à l'extraction de valeurs indexant le texte, mesures statiques ou liées à l'évolution du texte. La classification choisie est arborée (NJ). Elle repose sur ces caractéristiques par sa faible complexité et son respects des distances, elle fournit une aide à la classification

Abstract FR:

This PhD Thesis aims at bringing to sociologists a data-processing tool wich allows them to analyse of semi-directing open talks. The proposed tool performs in two steps : an indexation of the talks followed by a classification. Usually, indexing methods rely on a general stastistical analysis. Such methods are suited for texts having contents and structure ( literary texts, scientific texts,. . . ). These texts have more vocabulary and structure than talks (limitation to 1000 words for suche texts). On the basis of the assumption that the sociological membership strongly induces the form of the speech, we propose various methods to evaluate the structure and the evolution of the texts. The methods attempt to find new representations of texts (image, signal) and to extract values from these new representations. Selected classification is a classification by trees (NJ). It has a low complexity and it respects distances, then this method is a good solution to provide a help to classification.