Noyaux de séquences pour la vérification du locuteur par machines à vecteurs de support
Institution:
Toulouse 3Disciplines:
Directors:
Abstract EN:
This thesis is focused on the application of Support Vector Machines (SVM) to Automatic Text-Independent Speaker Verification. This speech processing task consists in determining whether a speech utterance was pronounced or not by a target speaker, without any constraint on the speech content. In order to apply a kernel method such as SVM to this binary classification of variable-length sequences, an appropriate approach is to use kernels that can handle sequences, and not acoustic vectors within sequences. As explained in the thesis report, both theoretical and practical reasons justify the effort of searching such kernels. The present study concentrates in exploring several aspects of kernels for sequences, and in applying them to a very large database speaker verification problem under realistic recording conditions. After reviewing emergent methods to conceive sequence kernels and presenting them in a unified framework, we propose a new family of such kernels : the Feature Space Normalized Sequence (FSNS) kernels. These kernels are a generalization of the GLDS kernel, which is now well-known for its efficiency in speaker verification. A theoretical and algorithmic study of FSNS kernels is carried out. In particular, several forms are introduced and justified, and a sparse greedy matrix approximation method is used to suggest an efficient and suitable implementation of FSNS kernels for speaker verification. . .
Abstract FR:
La vérification automatique du locuteur (VAL) est une tâche de classification binaire, qui consiste à déterminer si un énoncé de parole a été prononcé ou non par un locuteur cible. Les Machines à Vecteurs de Support (SVMs) sont devenues un outil classique pour ce type de classification. Cette approche discriminante a suscité l’intérêt de nombreuses recherches en reconnaissance des formes, tant pour ses fondements théoriques solides que pour ses bonnes performances empiriques. Mais la mise en oeuvre des SVMs pour la VAL en situation réelle soulevant plusieurs problèmes relatifs aux caractéristiques propres à cette tâche. Il s’agit principalement de la taille élevée des corpus d’apprentissage et de la nature séquentielle des observations à classifier. Cette thèse est consacrée à l’exploration des noyaux de séquences pour la classification SVM du locuteur. Nous commen¸cons par faire un tour d’horizon des méthodes émergentes pour construire des noyaux de séquences. Ensuite nous proposons une nouvelle famille de noyaux en se basant sur une généralisation d’un noyau qui a fait ses preuves en VAL. Nous faisons l’analyse théorique et algorithmique de cette nouvelle famille avant de l’appliquer à la VAL par SVM. Après la mise en oeuvre des systèmes SVMs à base des différents noyaux que nous avons étudiés, nous comparons leurs performances sur le corpus NIST SRE 2005, à partir d’un protocole de développement commun. Enfin, nous introduisons un nouveau concept pour aborder le problème de VAL, dont le principe est de déterminer si deux séquences ont été prononcées par le même locuteur. L’utilisation des SVMs pour exploiter ce concept nous amène à définir une nouvelle catégorie de noyaux : les noyaux entre paires de séquences.