Suivi de thème dans les documents audio
Institution:
Paris 11Disciplines:
Directors:
Abstract EN:
Topic tracking is key technology to keep track of topics that are of interest to users, and can substantially reduce the time needed forthe user to search a large amount of multimedia data. This thesis investigates the development of automatic topic tracking methods forbroadcast news data. There are some important differences between indexing and searching text documents and broadcast news datat which need to be taken into account. Our baseline system relies on a unigram topic model. In order to compensate for the transcription errors in the training and test data, document expansion is used in estimating the initial topic model, and unsupervised model adaptation is carried out after each test story is processed. The experimental results show that document expansion and online adaptation can compensate the differences in tracking cost based on automatic speech transcriptions from that obtained using newswire texts or manual transcriptions. In order to have a closer interface between the speech recognizer and the tracking system, we investigated the use of confidence scores and confusion networks in our tracking algorithm. The tracking costs were reduced by 3-5%. We also investigated methods to automatically segment the broadcast news transcripts into coherent stories. A source-independent window-based tracking system has been developed to avoid the need for story boundaries. The tracking performance with the window-based story tracking system is comparable to that obtained with automatic story boundaries provided by a state-of-the-art automatic story segmentation system.
Abstract FR:
Le suivi de thème est une technologie cruciale pour cibler les sujets potentiellement intéressants pour un utilisateur, ceci afin de rendreplus rapide la recherche dans un vaste espace d'information. Il existe des différences notables entre l'indexation et la recherche dans desdocuments sous forme textuelle et dans les émissions radio ou télé-diffusées. Nous avons utilisé de modelés de langage unigrames pour la mesure de similarité entre classes de documents. Afin de réduire l'impact des erreurs de transcription sur le résultat du suivi, nous avons utilisé des techniques d'enrichissement du document fondées sur des sources d'informations exogènes telles que les émissions passées, combinées avec des techniques d'adaptation dynamiques non-supervisées qui mettent à jour le modèle thématique à partir des informations obtenues des données de test en elles-mêmes. Les résultats expérimentaux montrent que l'enrichissement de document et l'adaptation dynamique peuvent compenser les différences entre le coût du suivi des transcriptions automatiques de la parole et celui des textes des dépêches ou des transcriptions manuelles. Afin d'obtenir une interface plus directe entre le système de reconnaissance vocale et le système de suivi thématique, nous nous sommes intéressé à l'utilisation de scores de confiance et de réseaux de confusion dans notre algorithme de suivi, la réduction de coût est de 3-5\%. Nous avons aussi développé un système de suivi de thème indépendant du type de source fondé sur une fenêtre glissante, ne nécessitant pas d'information préalable sur la segmentation des données.