thesis

Contribution à une modélisation statistique du langage et à sa mise en oeuvre informatique

Defense date:

Jan. 1, 2002

Edit

Institution:

Nice

Disciplines:

Directors:

Abstract EN:

Indexes dynamic building for texts, linear sorting and n-grams retrieval. Using algebraic and statistical properties, for compression, deciphering, etc. Language Markov modelling and graphical representation. Estimation, testing hypothesis, homogeneity problem. Applying biological sequence analysis methods to discrimination between text sequences from different corpora, and to decode the underlying structure of an inhomogeneous text (e. G. With interpolations or written by several authors). Implementation of an hidden Markov model adapting Viterbi, forward, backward and Baum-Welch algorithms, to higher order variety.

Abstract FR:

Automates finis, analyseurs lexicaux, choix d'une structure d'index ouvert, relevé des formes et des références en une seule passe, tri linéaire combinant tri par base et par dénombrement. Indexation et recherche de n-grammes, méthode de Rabin-Karp. Problèmes algébriques posés par des textes naturels (déchiffrabilité, charades). Utilisation de propriétés statistiques des textes pour la compression, le décryptement. Modélisation markovienne du langage et théorie des graphes. Simulation de chaînes. Estimateurs, ajustement d'un modèle sur une séquence de texte, test d'adéquation et choix d'un ensemble d'états. Transposition de méthodes utilisées par la génomique, pour attribuer une séquence textuelle à un type d'écriture (corpus, auteur), et pour découper un corpus en zones homogènes (recherche d'interpolation, de scripteurs différents). Implantation de modèles de Markov cachés, adaptation des algorithmes (Viterbi, forward, backward, Baum-Welch) à des modèles M1-Mk.