thesis

Stratégies robustes de compréhension de la parole basées sur des méthodes de classification automatique

Defense date:

Jan. 1, 2007

Edit

Institution:

Avignon

Disciplines:

Abstract EN:

The work presented in this PhD thesis deals with the automatic Spoken Language Understanding (SLU) problem in multiple speaker applications which accept spontaneous speech. The study consists in integrating automatic classification methods in the speech decoding and understanding processes. My work consists in adapting methods, wich have already shown good performance in text domain, to the particularities of an Automatic Speech Recognition system outputs. The main difficulty of the process of this type of data is due to the uncertainty in the input parameters for the classifiers. Among all existing automatic classification methods, we choose to use three of them. The first is based on Semantic Classification Trees, the two others classification methods, considered among the most performant in the scientific community of machine learning, are large margin ones based on boosting and support vector machines. A sequence labelling method, Conditional Random Fields (CRF), is also studied and used. Two applicative frameworks are investigated : -PlanResto is a tourism application of human-computer dialogue. It enables users to ask information about a restaurant in Paris in natural language. The real-time speech understanding process consists in building a request for a database. Within this framework, the consensual agreement of the different classifiers, considered as semantic experts, is used as a confidence measure ; -SCOrange is a spoken telephone survey corpus. The purpose is to collect messages of mobile users expressing their opinion about the customer service. The off-line speech understanding process consists in evaluating proportions of opinions about a topic and a polarity. Classifiers enable the extraction of user's opinions in a strategy that can reliably evalute the distribution of opinions and their temporal evolution.

Abstract FR:

Cette thèse concerne le problème de la compréhension automatique de la parole dans des applications acceptant de la parole téléphonique spontanée multilocuteurs. L'étude consiste en l'intégration de méthodes de classification automatique dans les processus de décodage et de compréhension de la parole. Nos travaux portent sur l'adaptation de ces méthodes, ayant obtenu d'excellents résultats sur le langage écrit, aux particularités des sorties d'un système de reconnaissance automatique de parole. La principale difficulté de traitement de ce type de données réside dans le caractère incertain des paramètres d'entrée des classifieurs. Parmi toutes les méthodes de classification existantes, nous avons choisi d'en utiliser trois. La première est à base d'arbres de décisions sémantiques, les deux autres, considérées par la communauté scientifique de l'apprentissage automatique parmi les plus performantes, sont des méthodes de classification à large marge : le boosting et les machines à support vectoriel. Une méthode d'étiquetage de séquences, les champs conditionnels aléatoires, est également étudiée et utilisée. Deux cadres applicatifs sont abordés : -PlanResto, application touristique de dialogue oral homme-machine, permet aux utilisateurs de formuler en langage naturel une demande concernant un restaurant sur Paris. La compréhension effectuée en temps réel consiste en la construction d'une requête à une base de données. L'accord consensuel des différents classifieurs est utilisé en tant que mesure de confiance ; -SCOrange, corpus de sondage téléphonique, vise à collecter les messages des utilisateurs de mobile exprimant leur satisfaction vis à vis du service client. La compréhension effectuée off-line consiste à évaluer les proportions des différentes opinions exprimées selon un thème et une polarité. Les classifieurs permettent d'extraire les avis des utilisateurs dans une stratégie visant à évaluer de manière fiable les proportions des opinions ainsi que leur évolution.