Apprentissage de modèles à états finis stochastiques pour les séquences
Institution:
Saint-EtienneDisciplines:
Directors:
Abstract EN:
This thesis deals with learning stochastic finite state automata for sequence modelling. We aimed at developing both their structural and probabilistic aspects, through the extension of the models and the design of new learning algorithms. On the one hand, we have developed statistical aspects of stochastic finite state automaton learning algorithms in order to deal with practical cases. We have designed a new learning algorithm based on statistical tests for sample comparison. This framework allows to take into account the size of the learning set in the inference process. On the other hand, we have developed syntactic aspects of finite state automaton and their ability to model the underlying structure of sequences. We have defined typed automata, an extension of classical finite state automata, which permits the introduction of a priori knowledge in the models. From a theoretical point of view, we have studied the search space for the typed automata. We have proposed a modified version of classical automata learning algorithms in the framework of typed automata. Finally, we have applied these models and algorithms to a language modelling task. The obtained automata were competitive with state of the art models on a classical corpus
Abstract FR:
Le travail présenté dans cette thèse concerne l'apprentissage de modèles à états finis stochastiques pour la modélisation de séquences. Ces modèles combinent un aspect structurel et un aspect probabiliste que nous avons tous deux cherché à développer à travers une extension à la fois des modèles et des algorithmes d'apprentissage. Nous avons voulu d'une part développer les aspects statistiques des algorithmes d'inférence des automates à états finis stochastiques et en particulier les adapter aux cas pratiques. Pour ce faire, nous avons développé un nouvel algorithme d'inférence basé sur un test statistique de comparaison d'échantillons. Ce cadre permet l'utilisation de techniques statistiques adaptées à la taille des échantillons d'apprentissage. Nous avons voulu d'autre part développer l'aspect syntaxique des automates à états finis et leur capacité à modéliser la structure sous-jacente des séquences. Dans ce but, nous avons défini les automates typés, une extension des automates à états finis classiques permettant d'introduire dans les automates des connaissances a priori sur les séquences. D'un point de vue théorique, nous avons étudié l'espace de recherche associé au problème de l'inférence de ces automates. Nous avons proposé une adaptation des algorithmes d'inférence existant au cas des automates typés. D'un point de vue pratique, nous avons appliqué un algorithme d'inférence d'automates typés stochastiques à un problème de modélisation de la langue en reconnaissance de la parole. Les modèles obtenus rivalisent avec les modèles à l'état l'art (n-grammes) sur un corpus classique du domaine