Sélection des unités pour la synthèse vocale par concaténation
Institution:
Paris 11Disciplines:
Directors:
Abstract EN:
This thesis is about Text-To-Speech (TTS), i. E. : the oral enunciation of an unrestricted text by the speech synthesis system. The accomplished work concerns the signal generation method that operates by concatenating pre-recorded elementary speech signals, the units, and especially these signals selection procedure. Nowadays, the quality of the speech synthesized by the concatenative method is acknowledged as proportional to the number of units stored in the database. This statement explains the recent spread of big databases, containing about several hours of recorded speech. However, the size of a database, how big it might be, cannot assure the good quality of the synthesized speech: a unit selection procedure able to find in the database the most adapted units is also necessary. Consequently, the aim of this thesis is to propose a new unit selection procedure. The method used to deal with the unit selection procedure is to break it up into three separate steps: the unit choice (that is, the choice of units parameters and the choice of the database); the pre-selection (the selection in the database of the units which could be used for the vocalisation of the input sentence); the final selection of the units eventually used. Two novel pre- selection methods are proposed: the first one of these is based on linguistic knowledge and on a generic formalism, while the second one is based on an automatic learning procedure coupled with an acoustic clustering technique. A new final selection method is also proposed, inspired by most recent works presented in literature. The unit selection procedures that embed the proposed methods for pre-selection and final selection are eventually evaluated during formal listening tests.
Abstract FR:
Cette thèse concerne la synthèse vocale à partir du texte: c'est-à-dire l'énonciation orale d'un texte de nature quelconque par le système de synthèse. Le travail réalisé porte sur la méthode de génération du signal de parole par concaténation de signaux élémentaires de parole pré-enregistrés, les unités, et plus particulièrement sur la procédure de sélection de ces unités dans la base de données. Actuellement, la qualité de la synthèse obtenue par la méthode par concaténation est reconnue comme proportionnelle au nombre des unités présentes dans la base de données. Ce constat explique la généralisation récente de bases de données de grande taille, de l'ordre de quelques heures de parole enregistrée. Néanmoins, la taille importante d'une base de données n'assure pas seule la bonne qualité de la synthèse obtenue: une procédure de sélection capable de retrouver dans cette base les unités les plus appropriées est aussi essentielle. L'objectif de cette thèse est donc de proposer une nouvelle procédure de sélection des unités. La méthode employée pour aborder la sélection des unités consiste à la décomposer en trois étapes indépendantes les unes des autres: le choix des unités (le choix des paramètres qui les définissent et le choix de la base de données dont ces unités sont extraites); la pré-sélection, (la sélection des unités potentiellement utilisables pour la vocalisation de la phrase); la sélection finale des unités effectivement utilisées. Deux nouvelles méthodes de pré-sélection sont proposées: l'une basée sur des connaissances expertes et un formalisme très générique; l'autre reposant sur une technique d'apprentissage automatique couplée à une technique de partitionnement acoustique. Une nouvelle méthode de sélection finale, s'inspirant de travaux récemment présentés dans la littérature, est aussi proposée. Les procédures de sélection des unités qui incluent les différentes méthodes proposées sont évaluées au cours de tests formels d'écoute.