Modèles de production et reconnaissance automatique de la parole
Institution:
AvignonDisciplines:
Directors:
Abstract EN:
Pas de résumé disponible.
Abstract FR:
Les travaux que nous présentons s'inscrivent dans le cadre de l'utilisation de modèles articulatoires pour la reconnaissance automatique de la parole. Une telle méthodologie, encore peu expérimentée, est toutefois potentiellement très intéressante pour représenter de manière concise les phénomènes de coarticulation des sons en parole continue. Nos recherches permettent de répondre partiellement aux difficiles problèmes soulevés par son implémentation. Nous avons choisi pour conduire nos expériences deux modèles de conception très différente : le modèle acoustique à régions distinctives (drm) et le modèle statistique de Maeda. La première phase importante de nos recherches a consisté à ajuster optimalement les configurations des modèles caractérisant les sons vocaliques du français de manière à minimiser les distances acoustiques aux phonèmes produits par un locuteur. La deuxième étape de nos travaux a permis de doter le modèle de Maeda d'une stratégie de contrôle de ses paramètres de commande. Enfin, nous avons utilisé les deux modèles pour une tâche d'identification de diphones vocaliques. Pour la recherche des configurations de référence optimalement adaptées au locuteur, plusieurs techniques ont été employées : modifications de la longueur des modèles, déplacement de l'axe de symétrie, transformation géometrique du modèle de Maeda en fonction de la structure du conduit vocal du locuteur (obtenue par radiographies). Ces modifications apportées à la composante statique des modèles ont permis d'obtenir des espaces acoustiques très proches entre les productions des modèles et les réalisations des locuteurs. A l'encontre du modeèe drm - qui dispose de plusieurs stratégies de commande des paramètres - le modèle de Maeda devait être doté d'un moyen de contrôler les mouvements des articulateurs pour passer d'une forme du conduit vocal à une autre. Pour cela nous avons effectué des mesures des trajectoires articulatoires pour un locuteur prononcant des logatomes vocaliques et quelques courtes phrases. L'acquisition de ces données a été réalisée au moyen d'un système électromagnétique (movetrack) permettant de suivre l'évolution de capteurs disposés sur les articulateurs (lèvres, langue, machoire). Les trajectoires naturelles sont modélisées au moyen d'un ensemble de fonctions sigmoïdales utilisées pour piloter dynamiquement le modèle. Cette représentation a le mérite de suivre précisement l'évolution des mouvements des articulateurs du locuteur et d'en quantifier correctement les caractéristiques principales. Par ailleurs cette étude a révélé d'intéressants résultats sur la désynchronisation des différents articulateurs lors de la production des séquences phonémiques. Les deux modèles, adaptés aux caractéristiques des locuteurs, montrent des capacités encourageantes pour la reconnaissance automatique de diphones vocaliques. Il conviendrait toutefois d'étendre ces expériences à l'identification de séquences de sons plus complexes incluant des consonnes