Knowledge Tree

thesis

Identification et génération automatique de contours prosodiques pour la synthèse vocale à partir du texte en français

Defense date:

Jan. 1, 1998

Edit

Institution:

Paris, ENST

Disciplines:

Chemistry

Authors:

Stéphanie de Tournemire

Directors:

Laurent Miclet

Abstract EN:

Pas de résumé disponible.

Abstract FR:

En français, comme dans la plupart des langues indo-européennes, la prosodie dépend de nombreux facteurs (la syntaxe, la sémantique, la pragmatique, le locuteur) difficiles à modéliser par un seul système de synthèse à partir du texte (tts). Ainsi, généralement, la création d'une nouvelle voix synthétique consiste à modifier les niveaux acoustiques sans introduire de nouvelles caractéristiques prosodiques. Les techniques d'apprentissage automatique permettent d'extraire automatiquement les régularités prosodiques présentes dans un corpus de parole enregistrée. Néanmoins, ces techniques nécessitent la transcription prosodique (souvent) manuelle de corpus importants, créant par là-même un frein à l'acquisition rapide de nouveaux modèles prosodiques. Cette étude propose une solution permettant de capturer automatiquement une nouvelle prosodie à partir d'un corpus de parole enregistrée. La méthodologie de construction du modelé prosodique comporte trois principales étapes : la transcription prosodique semi-automatique d'un corpus enregistre, l'apprentissage automatique d'un modèle de prédiction des contours prosodiques à partir du corpus transcrit et l'intégration de ce modèle dans un système de synthèse de parole à partir du texte. La mise au point de la méthodologie s'appuie sur la réalisation d'un modèle prosodique de f0 et des durées pour le français à partir d'un corpus enregistre. L'erreur objective moyenne produite par le modèle sur la base de test est de 20 hz pour f0 et de 17 ms pour les durées des phonèmes. Les résultats d'un test subjectif ont situé le modèle prosodique développe comme équivalent au système standard de génération des contours prosodiques du cnet (cnetvox). La méthodologie est appliquée à l'acquisition des paramètres prosodiques d'un second locuteur à partir d'un corpus enregistre par ce nouveau locuteur. Les performances du nouveau modèle prosodique permettent de valider la méthodologie.