Adaptation au locuteur des modèles acoustiques dans le cadre de la reconnaissance automatique de la parole
Institution:
AvignonDisciplines:
Directors:
Abstract EN:
The speaker-dependent HMM-based recognizers have lower Word Error Rates (WER) than speaker-independent ones. Nevertheless, in the speaker-dependent case, the requirement of large amount of training data for each test speaker reduces the utility and portability of such systems. The aim of speaker adaptation techniques is to enhance the speaker-independent acoustic models to bring their recognition accuracy as close as possible to the one obtained with speaker-dependent models. In this work, we present two different approaches to increase the robustness of speech regnonizer with respect to the speaker acoustic variabilities. The first one is a method using test and training data for acoustic model adaptation . This method operates in two steps : the first one performs an a priori adaptation using the transcribed training data of the closest training speakers to the test speaker. The second one performs an a posteriori adaptation using the MLLR procedure on the test data. This adaptation strategy was evaluated in a large vocabulary speech recognition task. Our method leads to a relative gain of 15% with respect to the baseline system. The second method presented is based on tree structure. To avoid poor transformation parameters estimation accuracy due to an insufficiency of adaptation data in a node, we propose a new technique based on the maximum a posteriori approach and PDF Gaussians Merging. The basic idea behind this new technique is to estimate an affine transformations which bring the training acoustic models as close as possible to the test acoustic models rather than transformation maximizing the likelihood of the adaptation data. In this manner, even with very small amount of adaptation data, the parameters transformations are accurately estimated for means and variances. This method leads to a relative gain of 16% with respect to the baseline system and a relative gain of 19. 5% combined with the MLLR adaptation
Abstract FR:
Le travail présenté s'inscrit dans le cadre des systèmes de reconnaissance automatique de la parole basés sur l'approche probabiliste. Dans ce cadre, si les conditions acoustiques de test différent de celles d'apprentissage, les performances des systèmes chutent rapidement. Les principales causes de décalage acoustique entre apprentissage et test peuvent être dues à l'environnement, au canal d'enregistrement ou aux caractéristiques propres au locuteur de test. Pour réduire ce décalage, il est souvent nécessaire d'avoir recours à une phase d'adaptation des modèles acoustiques. Les deux méthodes d'adaptation proposées ici ont été testées dans le cadre de l'adaptation au locuteur des modèles acoustiques et évaluées à l'aide du système de reconnaissance SPEERAL, développé au Laboratoire Informatique d'Avignon. Les expériences ont été réalisées sur un ensemble de 299 phrases prononcées par 20 locuteurs (corpus ARC B1 de l'AUPELF). La première méthode permet d'intégrer une partie des données d'apprentissage dans le processus d'adaptation, en sélectionnant au préalable une partie des locuteurs d'apprentissage considérés comme étant les plus proches du locuteur de test; nous proposons deux techniques différentes pour les calculs de distances entre locuteurs. Cette méthode a permis une réduction du taux d'erreur par mot de 15% (gain relatif) par rapport au système initial. La seconde méthode est basée sur un arbre de classification des paramètres du modèle acoustique initial. Nous proposons une nouvelle manière d'adapter l'ensemble des paramètres au moyen de transformations simples estimables quelle que soit la quantité de données d'adaptation disponible. Suivant la configuration du système initial, notre méthode permet une diminution du taux d'erreur mot de 16% par rapport au système initial (gain relatif). Il est important de constater que les gains apportés peuvent être cumulés avec l'adaptation MLLR: le gain relatif par rapport au système initial est alors de 19,5%