Modélisation statistique de l'intonation de la parole expressive
Institution:
Rennes 1Disciplines:
Directors:
Abstract EN:
Expressive speech is characterised by its intonation, which is highly variable and strongly dependent on the paralinguistic information it conveys. This type of speech represents a major challenge for speech synthesis technologies, and more particularly for their prosodic prediction modules. In this thesis we propose a statistical model of intonation that, for a given linguistic content, allows for multiple intonative variants, that model various intonation patterns resulting from untagged paralinguistic content and variability intrinsic to speech. This model, whose parameters are automatically trained on a speech corpus, combines two steps: first, a classification tree (CART) models the relationship between the linguistic content and intonation and second, a Hidden Markov Model (HMM) models the competing intonative variants. Originally, the model was designed to calculate a likelihood score that evaluates intonation quality. We then used the model in an inverse fashion, that is, to generate the intonation contour of any new utterance by maximizing the likelihood score. For the target application of this work, namely unit selection speech synthesis, the intonation model is integrated into unit selection with Finite State Machines (FSM). The unit selection then realizes a trade-off between segmental and intonation quality.
Abstract FR:
La parole expressive est caractérisée par une intonation très variable et fortement empreinte du contenu paralinguistique qu'elle véhicule. Elle constitue un défi majeur pour les technologies de synthèse vocale, et plus particulièrement pour leur module de prédiction prosodique. Dans ce cadre, les travaux de cette thèse proposent un modèle statistique de l'intonation qui autorise, pour un contenu linguistique donné, plusieurs variantes intonatives modélisant les différentes formes d'intonation issues du contenu para-linguistique et de la variabilité de la parole. Ce modèle, dont les paramètres sont appris automatiquement sur un corpus de parole, combine deux étapes : une étape de modélisation de la relation entre le contenu linguistique et l'intonation par le moyen d'un arbre de classification (CART) et une étape de modélisation des variantes intonatives par le moyen d'un modèle de Markov caché (HMM). Initialement conçu pour estimer la qualité de l'intonation par une mesure de vraisemblance, le modèle est utilisé en mode génératif pour déterminer la courbe intonative d'énoncés à synthétiser. Dans le cadre de la synthèse par sélection d'unités, principale cible de ces travaux, le modèle est également intégré dans l'algorithme de sélection des unités acoustiques au moyen d'automates à états finis (FSM). La sélection réalise alors un compromis entre qualité segmentale et qualité de l'intonation des énoncés synthétisés.