thesis

Reconnaissance automatique de la parole audiovisuelle : stratégies d'intégration et réalisation du liptrack, labiomètre temps réel

Defense date:

Jan. 1, 1997

Edit

Institution:

Grenoble INPG

Disciplines:

Authors:

Directors:

Abstract EN:

Pas de résumé disponible.

Abstract FR:

L'integration des informations acoustiques et visuelles est un probleme central en reconnaissance automatique de la parole bimodale. Dans cette these, nous etudions differentes methodes d'integration et proposons une solution robuste a la degradation acoustique pour la fusion des deux modalites, sur un corpus compose de mots isoles prononces par un seul locuteur. Apres une breve presentation de quelques elements physiologiques sur la production de la parole et la parametrisation des levres, nous decrivons quelques proprietes intrinseques de la perception de la parole bimodale afin de mieux comprendre ce processus. Differents modeles d'integration audiovisuelle chez l'homme et dans la machine sont presentees. Nous passons a une description detaillee des techniques d'extraction des informations visuelles des mouvements des levres, notamment celles basees sur le traitement video, ainsi que notre methode de calcul des parametres labiaux basee sur un maquillage prealable des levres. Nous nous consacrons ensuite a une revue de l'etat de l'art dans le domaine du developpement des systemes de reconnaissance visuelle et audiovisuelle. Nous presentons les resultats de nos tests sur les deux modeles d'integration couramment utilises dans la litterature (precoce et tardive) en insistant sur notre architecture d'integration originale, basee sur une ponderation des canaux en fonction de leur fiabilite, estimee par la dispersion des meilleurs candidats. La derniere partie de ce manuscrit est dediee a la description technique de notre systeme electronique d'extraction des parametres labiaux en temps reel et a l'evaluation de ses performances dans une application de lecture labiale automatique.