thesis

Construction de la semantique a partir de corpus de dialogue oral homme-machine de la description categorielle a la modelisation stochastique

Defense date:

Jan. 1, 1998

Edit

Institution:

Paris 11

Disciplines:

Directors:

Abstract EN:

Pas de résumé disponible.

Abstract FR:

Cette these traite du probleme de la comprehension automatique de la parole spontanee. L'objectif est de concevoir et d'etudier une methode stochastique pour l'analyse semantique et de la comparer avec une methode conventionnelle d'analyse par regles. Dans une application bien definie et dans une langue specifique, les implementations conventionnelles d'inference de regles fournissent de bonnes performances. Neanmoins, le developpement manuel d'un tel analyseur semantique explicite est couteux, car chaque application et chaque langue necessitent soit une adaptation, soit, dans le cas le plus extreme, une nouvelle implementation. Les techniques de modelisation stochastique generales et adaptables a d'autres applications et langues, peuvent se substituer aux methodes par regles (categorielles) afin de produire une representation semantique a partir des phrases transcrites par le module de reconnaissance. Les modeles stochastiques resultent de l'analyse automatique d'un grand nombre de phrases provenant d'utilisateurs pseudo-reels. Une methode stochastique a ete developpee puis validee dans differentes applications et langues, dont atis (air travel information services) en anglais, mask (multimodal-multimedia automated service kiosk) et arise (automatic railway system for europe) en francais. Les applications se situent dans le domaine de la communication homme-machine et concernent la demande d'informations sur les transports aeriens et ferroviaires. Pour atis, un systeme initial, en francais, utilisant une methode par regles a ete realise au laboratoire d'informatique pour la mecanique et les sciences de l'ingenieur (france) et porte en langue anglaise, dans le cadre de cette these. Ce dernier systeme a permis d'etiqueter semantiquement un corpus de phrases transcrites qui ensuite a ete utilise pour entrainer le module stochastique. Pour les applications mask et arise, les corpus semantiques ont ete etablis a l'aide de l'analyseur stochastique en utilisant une methode d'etiquetage iterative avec correction manuelle. L'apport essentiel du travail presente dans cette these est de montrer que pour des applications limitees, une methode stochastique pour la comprehension de la parole spontanee est plus robuste. Lors d'une comparaison directe, cette methode fournit de meilleurs resultats par rapport a une methode d'analyse par regles qui utilise une description categorielle de la semantique. De plus, l'analyseur stochastique est reutilisable et peut etre porte facilement vers d'autres applications, domaines et/ou langues. L'avantage reside dans le fait que l'effort humain se limite a la definition de la representation semantique et a l'etiquetage des donnees, qui sont ensuite utilisees lors de l'apprentissage des parametres du modele stochastique. Cela est plus aise que la conception, la maintenance et l'extension des regles de grammaire.