thesis

Construction et réduction de la base de parole adaptées à une application spécifique de la synthèse par corpus

Defense date:

Jan. 1, 2008

Edit

Institution:

Paris, ENST

Disciplines:

Directors:

Abstract EN:

Cette thèse s'inscrit dans le domaine de la synthèse de la parole à partir du texte et traite, plus précisément, de la synthèse par corpus. Nous abordons le problème de la construction d'un corpus textuel support de la base de parole utilisée pour synthétiser un énoncé donné. Cette problématique est habituellement abordée comme une recherche d'un corpus aussi petit que possible répondant à un certain nombre de spécifications linguistiques concernant la distribution des unités dans ce corpus (problème de recouvrement d'ensemble). La solution qui a été la plus exploitée pour résoudre ce problème est l'application d'une méthode plus ou moins gloutonne consistant à sélectionner, une par une, des phrases les plus pertinentes dans un grand volume de données. Nous présentons une méthode alternative de sélection de corpus : une méthode basée sur un algorithme glouton avec la divergence de Kullback-Leibler comme critère de sélection de phrases. Cette approche vise à construire un corpus dont la distribution des unités tend vers une distribution cible fixée a priori. Nous proposons également une mise à jour efficace du critère ce qui permet de diminuer significativement le temps de sélection du corpus. Notre méthode est très flexible et permet d'accommoder facilement différentes distributions cibles. C'est pourquoi la seconde partie de notre travail porte sur l'utilisation de la méthode proposée dans le cadre de l'adaptation de la base acoustique réduite pour une application précise. Nous montrons que l'adaptation de la base réduite permet d'améliorer la qualité de la synthèse par rapport à celle obtenue avec des bases réduites mais non adaptées.

Abstract FR:

This thesis relates to Text-To-Speech synthesis and more particularly deals with a corpus based approach that is the unit selection speech synthesis. This study is focused on the corpus selection problem which can be expressed as a set covering problem. To solve this problem heuristic approaches have to be considered, such as greedy algorithms. The greedy approach incrementally builds a corpus by selecting, at each step, the most useful sentence from a large textual corpus, according to a criterion which assesses the benefits of including a new sentence. Usually, criteria take into account the number of in-cover and out-of cover units. We then propose a criterion that gives the possibility to globally control the unit distribution in the built corpus. We resort to a heuristic approach, based on greedy algorithm. We propose the Kullback-Leibler divergence to guide the iterative selection of candidate sentences: indeed, this criterion gives the possibility to control the unit distribution at each step of the algorithm. The aim of this method is to build a corpus whose unit distribution approximates a given target distribution. We also propose an efficient implementation of this method which incrementally update the KL divergence in the sentence selection process. As a consequence, the computation cost of the method is reduced. The proposed criterion is flexible and it is able to accommodate different distributions. We then use our method for database reduction adapted to a specific domain TTS synthesis applications. We show that this adaptive database pruning method is a promising reduction method.