Modèles de langage et classification automatique pour la reconnaissance de la parole continue dans un contexte de dialogue oral homme-machine
Institution:
AvignonDisciplines:
Directors:
Abstract EN:
Pas de résumé disponible.
Abstract FR:
La modélisation statistique de la parole spontanée dans la cadre d'une application de dialogue oral homme-machine doit s'accommoder d'une faible quantité de données d'apprentissage. L'utilisation de classes de mots se révèle alors bénéfique à plusieurs titres. Le premier intérêt est la réduction du nombre de paramètres mais cette thèse contribue à montrer que les classes peuvent permettre en outre de résoudre des problèmes plus larges de robustesse et d'adaptation des modèles de langage liés à l'évolutivité d'un systéme de dialogue. Ainsi, le présent travail porte à la fois sur la construction des classes de mots et sur l'exploitation qui peut en être faite. La seule utilisation de classes a priori n'est pas souhaitable pour modéliser la parole spontanée dont les particularismes dépassent bien souvent le cadre d'une description a priori. Les classes de mots construites automatiquement peuvent quant à elles capturer ces particularités mais les algorithmes classiques n'exploitent que des informations contextuelles extraites des données et souffrent donc du manque de données d'apprentissage. Cette thèse propose une voie médiane où les informations contextuelles et les informations a priori sont utilisées conjointement pour la construction des classes. Un nouveau cadre théorique est défini dont le principe est de pallier le manque de données par une exploitation accrue des données disponibles. Il en résulte des classes plus homogènes, pouvant refléter des propriétés d'ordre syntaxique ou sémantique selon les informations utilisées, tout en demeurant bien adaptées à la modélisation de la parole spontanée. Grâce à ces classes, le problème de l'ajout d'un mot dans le lexique peut être résolu efficacement