thesis

Maximum-likelihood linear regression coefficients as features for speaker recognition

Defense date:

Jan. 1, 2009

Edit

Institution:

Paris 11

Disciplines:

Directors:

Abstract EN:

This dissertation addresses text-independent Automatic Speaker Verification (ASV) using features issued from Maximum Likelihood Linear Regression (MLLR) adaptation of Markov models with Gaussian mixture observation densities. MLLR transform coefficients obtained by adaptation of a speaker-independent model to speech data capture relevant cues characterizing a speaker. We focus on the MLLR-SVM paradigm classifying these features using Support Vector Machines (SVM). We propose a purely acoustic approach which avoids the need for transcripts and structural language constraints of previous systems by using Constrained MLLR (CMLLR) transforms together with Speaker Adaptive Training (SAT) of a Universal Background Model (UBM). We assess the impact of SAT and feature-space and model-space CMLLR transforms and we propose several alternative representations of CMLLR transforms based on the Singular Value Decomposition (SVD). We also assess inter-session variability compensation in CMLLR-SVM via Nuisance Attribute Projection (NAP). We use this framework to further develop a feature-level session compensation technique. We focus on multi-class (C)MLLR-SVM systems using LVCSR acoustic models. We perform a comprehensive experimental study of adaptation schemes exploring multiple axes such as front-end type, transform type, number of transforms, model type or training method. We draw numerous conclusions from it, namely the distinct behavior of CMLLR and MLLR adaptation which we analyze. We explore lattice MLLR adaptation as a means of dealing with erroneous transcripts as well as several fusion strategies at the feature and score levels.

Abstract FR:

Ce manuscrit porte sur la reconnaissance automatique du locuteur indépendante du texte en utilisant des paramètres de régression linéaire par maximum de vraisemblance (MLLR). Ces paramètres sont obtenus par l'adaptation d'un modèle acoustique indépendant du locuteur aux données de parole d'un locuteur et sont des indices pertinents qui caractérisent ce locuteur. Nous utilisons le paradigme MLLR-SVM qui classifie ces coefficients avec une Machine à Vecteurs Support (SVM). Nous proposons une approche purement acoustique qui n'utilise pas de transcriptions tout en évitant de dépendre de la langue en utilisant des transformations MLLR contraintes (CMLLR) et l'apprentissage d'un modèle du monde adapté au locuteur (SAT). Nous évaluons les effets de SAT ainsi que des transformations CMLLR dans l'espace des modèles et des paramètres pour lesquelles nous proposons plusieurs représentations alternatives. La compensation de la variabilité inter-session est aussi évaluée au moyen de la technique de projection d'attributs nuisibles (NAP), un cadre dont nous profitons pour développer une nouvelle méthode de compensation au niveau des paramètres. Nous explorons les systèmes multi-classe (C)MLLR-SVM basés sur des modèles acoustiques phonémiques. Une étude expérimentale complète des schémas d'adaptation est réalisée sur de multiples axes tels que le type de paramètres cepstraux, le type et le nombre de transformations, le type de modèle et la méthode d'apprentissage. Nous explorons aussi l'utilisation de l'adaptation MLLR basée sur des treillis de mots pour rendre plus robuste l'approche MLLR-SVM aux erreurs de transcription ainsi que des stratégies de fusion.