thesis

Intégration de sources de connaissances pour la modélisation stochastique du langage appliquée à la parole continue dans un contexte de dialogue oral homme-machine

Defense date:

Jan. 1, 2002

Edit

Institution:

Avignon

Disciplines:

Abstract EN:

Language models are very useful to speech recognition systems. Stochastic language models are the most used, especially "n-gram" models. These models are computed from training corpora and integrate constraints about sequences of "n" words. "N-gram" models are relatively efficient in speech recognition, but have two principal limitations : 1. Big training corpora are needed to estimate robust "n-gram" language models, 2. Lengh of constraints integrated in "n-gram" models, can't make "n-gram" models modelize any linguistic phenomena. To attenuate this limitation, we propose to integrate some regular probabilistic grammars represented by stochastic finite-state automata. Indeed, these grammars can include events which are not seen in the training corpus. Moreover, they can apply constraints with bigger length than "n-gram" models are able to. Another part of this work is about the estimation and the use of very specialised "n-gram" language models. We propose a method which associate a specific "n-gram" language model to a dialogue state. Two approaches are presented : one uses "a priori" knowledge to cluster the training corpus whereas the other one use statistic information. Last, we propose a method which allows to choose a recognition hypothesis beyond a set of several recognition hypothesis provided by several speech recognition systems. Our method can reject every hypothesis too : this can be helpful for the dialogue manager. This work is based on a decision tree, and can be improved by the use of consistance criteria presented in the last chapter of the thesis. These criteria are used to detect some errors, and strategic language models can also be applied to correct them

Abstract FR:

Les modèles de langage sont utilisés dans un système de reconnaissance de la parole pour guider le décodage acoustique. Les modèles de langage "n-grams" qui constituent les modèles de langage de référence en reconnaissance de la parole, modélisent des contraintes sur "n" mots à partir d'événements observés dans un corpus d'apprentissage. Ces modèles donnent des résultats satisfaisants car ils profitent d'une caractéristique commune à plusieurs langues qui exercent des contraintes locales fortes sur l'ordre des mots. Malheureusement, l'utilisation de ces modèles probabilistes est confrontée à plusieurs difficultés. Une faible quantité de données d'apprentissage est courante lors du développement de nouvelles applications de reconnaissance de la parole et entraîne l'estimation de modèles probabilistes peu robustes. Une autre difficulté vient de la longueur des contraintes modélisées : certaines contraintes linguistiques portent sur des distances supérieures aux capacités de modélisation des modèles "n-grams". Afin de pallier aux difficultés des modèles "n-grams", nous proposons d'utiliser plusieurs sources de connaissances "a priori". Nous proposons un modèle hybride qui combine un modèle de langage "n-gram" avec des grammaires régulières locales. Des connaissances "a priori" sont également exploitées pour la création de modèles de langage "n-grams" spécialisés et pour leur utilisation au cours d'un dialogue oral homme-machine. De même, l'analyse des caractéristiques des hypothèses issues de différents systèmes de reconnaissance utilise diverses sources de connaissances. Cette analyse permet de choisir l'hypothèse de reconnaissance la plus pertinente ou de rejeter l'ensemble des hypothèses proposées. Enfin, des connaissances "a priori" sont prises en compte pour élaborer des critères de consistance linguistique. Ces critères permettent de détecter certains types d'erreurs qui peuvent être corrigés à l'aide de modèles de langage très spécifiques, appelés modèles stratégiques