Informations morpho-syntaxiques et adaptation thématique pour améliorer la reconnaissance de la parole
Institution:
Rennes 1Disciplines:
Directors:
Abstract EN:
Our research aims at improving outputs produced by automatic speech recognition (ASR) systems by integrating additional linguistic knowledge. In the first part, we propose a new mode of integration of parts of speech in a post-processing stage of speech decoding. To do this, we tag N-best sentence hypothesis lists with a morpho-syntactic tagger and then reorder these lists by modifying the score computed by ASR systems at the sentence level. Experiments done on French-speaking broadcast news exhibit an improvement of the word error rate and of confidence measures. In the second more exploratory part, we are interested in thematically adapting the language model (LM) of an ASR system. We first segment the studied document into thematically homogeneous sections, by proposing a new probabilistic framework to integrate different modalities. We then build adaptation corpora retrieved from the Web and finally modify the LM with these specific corpora.
Abstract FR:
Nos travaux visent à améliorer les performances des systèmes de reconnaissance automatique de la parole (RAP) en employant davantage de connaissances linguistiques. Dans une première partie, nous proposons une nouvelle prise en compte des parties du discours en post-traitement du décodage de la parole. Nous étiquetons pour ce faire des listes d'hypothèses à l'aide d'un analyseur catégoriel puis réordonnons ces listes en modifiant le score global du système de RAP. Des expériences menées sur le corpus ESTER montrent des améliorations du taux d’erreur de mots et des mesures de confiance. Dans une seconde partie plus exploratoire, nous nous intéressons à l'adaptation thématique d'un modèle de langage (ML). Nous découpons tout d'abord le document étudié en sections thématiquement homogènes, en proposant un nouveau cadre probabiliste pour intégrer différentes modalités. Nous construisons ensuite des corpus d'adaptation à partir du Web et modifions enfin le ML avec ces corpus spécifiques.