Utilisation de paramètres auxiliaires en reconnaissance de la parole
Institution:
AvignonDisciplines:
Directors:
Abstract EN:
This thesis deals with the introduction into the speech recognition process of auxiliary information relating to different variability sources of the speech signal. Those variability sources have several origins and are usually not taken into account by speech recognition systems. They represent the main cause of degradation of the speech recognition system performance when there exists a mismatch between training and test conditions. In this thesis two ways of taking into account this kind of information are studied. First two auxiliary parameters that carry information about the glottal wave, pitch and voicing, are directly introduced into the acoustic vector. Experimental results show that those parameters improve recognition performance for isolated words recognition whereas they have no effect on continuous speech recognition. Detailed analysis show that they are useful for recognizing noisy data, that is to say kind of data frequently handled by speech recognition systems in fied conditions, and that their influence on speech recognition performance is greatly related to their correlation with the standard acoustic features. A second way of taking into account auxiliary information is also presented. It consists in using acoustic models that are dependent on auxiliary parameters. This dependency is modelled by the weights of the Gaussian functions that constitute the probability densities of the acoustic observation. This method is first applied with the pitch and the energy of the speech signal that are used separately. Then we show that it is also possible to combine several variability sources by combining pitch and energy with the speaker gender and the signal to noise ratio. Finally we show that this method can be used for other variability sources as the speaker accent or speaker classes modelling. In order to handle foreign accented speech, models adapted on speech data from foreign languages are combined at the acoustic level. The densities are made dependant on the speaker's accent by using weight coefficients that give more or less importance to each set of Gaussian functions corresponding to a given language. A similar method is applied to deal with a modelling based on classes of speakers by combining acoustic models of differents speaker classes
Abstract FR:
L'objet de cette thèse est d'étudier l'intégration au sein du processus de reconnaissance de la parole d'informations relatives à différentes sources de variabilités du signal de parole. Ces sources de variabilités sont d'origines diverses et ne sont habituellement pas prises en compte par les systèmes de reconnaissance de la parole. Elles constituent la principale cause de dégradation des performances des systèmes de reconnaissance de la parole lorsqu'ils sont utilisés dans des conditions différentes de celles pour lesquelles ils ont été conçus. Dans cette thèse deux façons de prendre en compte ces sources de variabilité sont étudiées. Dans un premier temps deux paramètres auxiliaires représentant l'information apportée par l'onde glottique, le pitch et le voisement, sont intégrés directement au sein du vecteur acoustique. Les résultats obtenus montrent que ces paramètres permettent d'améliorer les performances de reconnaissance des tâches de reconnaissance des mots isolés alors qu'ils n'ont aucun effet sur celles de reconnaissance de parole continue. Des analyses détaillées montrent que ces paramètres sont notamment utiles dans le cas de reconnaissance en conditions réelles d'utilisation. Une seconde méthode de prise en compte des sources de variabilités est également présentée. Elle consiste à utiliser des modèles acoustiques dépendants de paramètres auxiliaires. Cette dépendance est modélisée au niveau des pondérations des gaussiennes formant les densités de probabilité d'émission de l'observation acoustique. Cette méthode permet également de combiner plusieurs sources de variabilités et peut s'appliquer au traitement d'autres sources de variabilités comme l'accent du locuteur ou la modélisation par classes de locuteurs. Dans le cas du traitement de l'accent, la combinaison au niveau acoustique des densités des unités adaptées sur des données de parole de différentes langues permet de pondérer les gaussiennes constituant les densités de probabilité d'émission du vecteur acoustique en fonction de l'accent du locuteur. Une méthode analogue est également proposée pour la modélisation par classes de locuteurs