thesis

Reconnaissance multilocuteur de mots isolés fondée sur une approche phonétique

Defense date:

Jan. 1, 1987

Edit

Institution:

Paris 11

Disciplines:

Directors:

Abstract EN:

This thesis describes a speaker-independent isolated word recognition system which does not require any vocal training phase. The system is based on a phonetic approach which allows each phoneme to be represented by a spectral codebook. A clustering algorithm was used to build phonetic codebooks from a manually segmented and labelled multispeaker database. The training phase only consists in introducing the vocabulary words in phonetic form via a keyboard. Each word is represented by a production model in which each state corresponds to a phoneme pronunciation. A phoneme average duration is associated to the state. During the recognition phase, a global distance between the unknown word and each model is evaluated using dynamic time warping. This algorithm permits to find the best state sequence that minimizes the cumulated distances between spectral vectors of the unknown word and the reference model states.

Abstract FR:

L'objet de cette thèse est l'étude d'un système de reconnaissance multilocuteur de mots isolés qui ne nécessite pas d'apprentissage oral. Ce système est fondé sur une approche phonétique où chaque phonème est représenté par un dictionnaire de formes spectrales. Un algorithme de classification automatique a permis de construire les dictionnaires phonétiques à partir d'un corpus multilocuteur segmenté et étiqueté manuellement. La phase d'apprentissage consiste simplement à introduire au clavier, sous forme phonétique, la liste des mots à reconnaître. Chacun de ces mots est représenté par un automate d'états fini lié à son modèle de production. Chaque état correspond à l'émission d'un phonème auquel est associée la durée moyenne de son élocution. Durant la phase de reconnaissance, une distance globale entre le mot inconnu et chacun des modèles de référence est évaluée par un algorithme de programmation dynamique. Cet algorithme permet de trouver la séquence d'états qui minimise la somme des distances locales entre les échantillons centisecondes du mot à identifier et les états du modèle.