thesis

Modèles a posteriori de la forme et de l'apparence des lèvres pour la reconnaissance automatique de la parole audiovisuelle

Defense date:

Jan. 1, 2002

Edit

Institution:

Le Mans

Disciplines:

Directors:

Abstract EN:

In this manuscript, we present our research on model-based parameters extraction from video sequences for automatic speechreading in natural weaklv constrained, conditions. More precisely we describe the a posteriori lip shape and appearance models learnt from corpora that we propose. To be trained, these models require that lips can be located easily on images, which is not the case on nutural images. As manually labelling images is time-consuming, and hardly possible on a large corpus, we propose to use automatic methods instead through the use of make up and speech's bimodality. First, we defined a shape model for the lips containing two polygons : one for the outer lip contour and the other for the inner lip contour. This rnodel gives the opportunity to extract most lipreading information according to a in depth bibliographical study. To train statistically this model, we use video sequences where the speakers wear bIue lipstick on their lips, which enables easy boundary extraction. Welearn the mean shape and the main deformations. Next, we studied statistical appearance models which can only be trained on natural images. On these images, automatic lip location without external constraints is still unsolved. To label lips automatically, we use two repetitions of the same sentence by the same subject, with and without blue make up : onceagain, the blue sequence enables easy lip location and dynamic time warping (dtw) allows to estimate lip shape on natural images using the extracted shapes on blue images. The appearance model obtained is very similar to the one obtained when training the same initial model with hand-Iabeled images and is quite better than other models relying on hue. Moreover, the model we built can be adapted to any subject.

Abstract FR:

Après une étude bibliographique approfondie, nous décrivons des modèles a posteriori, appris sur des corpus, de la forme et de l'apparence des lèvres, utilisables pour extraire des paramètres visuels pour la reconnaissance automatique de parole audiovisuelle dans des conditions naturelles (peu contraintes). Le modèle de la forme, deux polygones décrivant les contours interne et externe des lèvres, est appris par ACP. Le modèle d'apparence est un réseau de neurones qui classifie les points de l'image. Son entraînement nécessite de repérer les lèvres sur des images naturelles et, plutôt que de recourir à un étiquetage manuel, nous proposons une nouvelle méthode automatique utilisant deux répétitions d'une même phrase, avec et sans maquillage bleu. Le maquillage permet d'extraire le contour des lèvres et l'alignement par DTW des canaux acoustiques des deux séquences permet d'estimer la forme des lèvres sur les images naturelles, grâce aux formes extraites avec le maquillage.