Techniques d'estimations et méthodes factorielles : exposé formel et application aux traitements de données lexicométriques
Institution:
Paris 11Disciplines:
Directors:
Abstract EN:
This dissertation is given in two steps: the first one is devoted to prove, within a probabilistic framework, the results obtained in descriptive statistics; the second one shows the programming the specific case of lexicometrical variables. 1- Applying validation technics - resampling for instance - to the methods used in descriptive statistics - generally proved with algebra - implies a probabilistic proof. A more complex formalization than usually is needed to consider a factorial analysis mapping as an estimation. Therefore, some classical results are given in this alternate framework. 2- Using SPAD standarts, specific cluster analysis programs are proposed, adapted to events countings - as used in lexicometry. These programs involve a discussion of the choice for a distance and the algorithms. The FORTRAN listings are proposed with some examples to show the stability of the selected methods. An application is the coding of free answers in surveys, using the transcriptions as an input.
Abstract FR:
Cette thèse se décompose en deux temps, le premier est consacré à une justification probabiliste des résultats de la statistique descriptive, et notamment de l'analyse des correspondances, le second à une programmation de l'application de ces techniques, et principalement de l'agrégation, aux variables manipulées dans la léxicométrie. 1- L'application des techniques de validation par ré-échantillonnage aux méthodes de statistique descriptive (qu'on justifie généralement par des démonstrations algébriques) pose le problème de leur démonstration probabiliste. Considérer une carte factorielle comme une estimation impose une formalisation de l'échantillonnage plus complexe que d'habitude. Dans ce cadre, un certain nombre de résultats classiques sont redémontrés. 2- Dans la logique du système de programmes SPAD, des programmes d'agrégation utilisables avec des comptages d'occurrences (comme en lexicométrie) sont proposés. Leur conception pose des problèmes de choix de distance et d'algorithmes. Les textes FORTRAN sont donnés ainsi que plusieurs exemples illustrant la stabilité de la méthode retenue. Il est possible d'appliquer ces programmes au codage automatique des questions ouvertes d'enquêtes à partir de la saisie des « réponses brutes ».