Transformation automatique de la parole : étude des transformations acoustiques
Institution:
Rennes 1Disciplines:
Directors:
Abstract EN:
This work presents an experimental evaluation of various voice transformation techniques based on GMM models. These linear transforms, despite their quality obtained, they fail to some defects specially the oversmoothing effect, the problem of spectral distortion and the overfitting. In a first part, we proposed taking these issues into account to adapt the learning strategy of the conversion functions. The first main idea is to reduce the number of parameters describing the conversion function. The second idea considers the solutions based on linear transform are unstable face to the lack of the training data, hence the recourse to non-linear transform model like RBF. In a second part in some situations, we need to align non-parallel data from the source and target speakers, one solution consists to use a recursive representation of binary tree, whose depth depends on the learning data size. In the last part, to get a high voice quality, we have proposed a model of parameters issued from the PCA projection on the true envelope before applying the conversion methods.
Abstract FR:
Le travail effectué dans cette thèse présente une évaluation des techniques de transformation de voix à base de GMM. Ces techniques de transformation linéaires malgré leurs qualités obtenues, elles ne manquent pas de quelques défauts, on peut noter le sur-lissage, le problème de distorsion spectrale et le sur-apprentissage. Dans un premier volet, nous avons pris en compte ces questions pour adapter la stratégie d'apprentissage des fonctions de conversion. La première c'est la réduction du nombre des paramètres libres de la fonction de conversion. La deuxième considère que les solutions par transformation linéaire sont instables face au peu de données d'apprentissage, d'où le recours aux modèles de transformation non-linéaire de type RBF. Dans un deuxième volet, pour aligner les données non-parallèles des locuteurs source et cible, une solution consiste à correspondre ces données via une représentation récursive d'un arbre binaire. Dans un dernier volet, pour obtenir une haute qualité de voix, l'utilisation d'un modèle de true-envelope est nécessaire. Pour cela, le recours aux techniques de réduction de dimension par PCA est indispensable avant d'appliquer les méthodes de conversion.