Knowledge Tree

thesis

Identification audio pour la reconnaissance de la parole

Defense date:

Jan. 1, 2011

Edit

Institution:

Paris 5

Disciplines:

Computer sciences

Authors:

Matthieu Camus

Directors:

Marie-José Caraty

Abstract EN:

This PhD thesis takes place within the framework of the speech recognition in audio contents. The purpose of this work is to adapt the principles of audio identification to speech recognition as well as to design and to develop robust identification techniques. Audio identification systems by audio fingerprinting are designed to music track indexation but do not handle the specificities of the speech signal. At first, various methods of audio identification by fingerprint are studied as well as a first work of adaptation to speech recognition. This work is followed by the development of an audio identification system by fingerprint dedicated to the ask of acoustic-phonetic decoding. New types of subfingerprint based on usual speech parameters are then proposed. Secondly, the various types of variability of the speech signal are described as well as the main parameters of acoustic representation of the speech signal. The robustness of various types of subfingerprint in extrincic variability and in intrinsic variability is estimated. In the presence of disturbances related to the environment and to the conditions of transmission of the speech signal (CTIMIT), a type of subfingerprint stemming from the audio identification turns out then the most robust.

Abstract FR:

Cette thèse de doctorat se place dans le cadre de la reconnaissance de la parole dans des documents audio. Le but de ce travail est d’adapter les principes de l’identification audio pour la reconnaissance de la parole ainsi que concevoir et développer des techniques d’identification robustes. Les systèmes d’identification audio par empreinte (audio fingerprinting) sont conçus pour l'indexation d’extraits de musique mais ne traitent pas des spécificités du signal de parole. Dans un premier temps, différentes méthodes d’identification audio par empreinte sont étudiées ainsi qu’un premier travail d’adaptation à la reconnaissance de la parole. Ce travail est poursuivi par le développement d’un système d’identification audio par empreinte dédié à la tâche de décodage acoustico-phonétique. De nouveaux types de sousempreinte basés sur des paramètres usuels de la parole sont alors proposés. Dans un second temps, les différents types de variabilité du signal de parole sont décrits ainsi que les principaux paramètres de représentation acoustique du signal de parole. La robustesse de différents types de sous-empreinte à la variabilité extrinsèque et à la variabilité intrinsèque est évaluée. En présence de perturbations liées à l’environnement et aux conditions de transmission du signal de parole (CTIMIT), un type de sous-empreinte issu de l’identification audio s’avère alors le plus robuste.