Traitement automatique des thèmes dans les corpus de parole
Institution:
Paris 11Disciplines:
Directors:
Abstract EN:
This thesis investigates automatic topic processing of speech data. Topic processing consists of determining the topics in an audio document containing some speech (topic identification), or segmenting a continuous speech stream into topically homogeneous fragments (topic segmentation). Topic identification can be further divided into the search of documents about a given topic (topic tracking) and the detection of documents about new, previously unknown topics (topic detection). This thesis investigates impact of the nature of spoken documents (the lack of document boundaries and punctuation markers, the existence of transcription errors) on topic processing techniques generally used for processing textual documents. The techniques studied include window-based document segmentation, Blind Relevance Feedback (BRF), and various distance and similarity formulae on documents (including the Okapi formula). A text indexer and a search engine have been developed. This system can retrieve the text documents which are closest to a query (with respect to either a distance or a similarity measure). The system was tested on the TREC conference's SDR (Spoken Data Retrieval) task, using the SDR experimental protocol along with automatic transcription with various word error rates. The major results of this thesis are that similarities between documents are more robust to transcription errors than distances, and that the benefits of using Blind Relevance Feedback mainly come from the fact that this technique makes the query closer to an actual document, and not from the enrichment of the lexicon it provides. This results suggest that further research should be directed towards finding better topic representations, approaching those that have the form of actual documents.
Abstract FR:
Cette thèse explore le traitement automatique des thèmes dans les corpus de parole. Le traitement des thèmes consiste à déterminer les sujets abordés dans un document audio contenant de la parole (identification des thèmes), ou à segmenter un flux continu de parole en fragments à contenu homogène en thème (segmentation thématique). L'identification de thèmes peut être déclinée en la recherche de documents traitant d'un thème donné (suivi de thèmes) ou en la détection de documents traitant d'un thème inconnu jusque là (détection de thèmes). Il s'agit ici d'étudier l'impact sur ces tâches des problèmes liés à la transcription automatique de la parole: présence d'erreurs de transcription, et absence de segmentation 'du flux audio en documents. On a développé un système d'indexation et un moteur de recherche pour trouver les textes répondant le mieux (au sens d'une distance ou d'une similarité) à une requête, et on l'a utilisé sur des corpus transcrits automatiquement présentant divers taux d'erreurs sur les mots. Le système a été évalué sur la tâche SDR (Spoken Data Retrieval) de la conférence TREC, dont le protocole expérimental a été utilisé lors de la préparation de la thèse. Les techniques étudiées sont la segmentation en documents par des fenêtres glissantes, la rétroaction (BRF, pour Blind Relevance Feedback), et différentes distances et similarités entre documents (dont la formule Okapi). Les résultats marquants de cette thèse sont d'une part l'observation que les similarités entre documents sont plus robustes que les distances aux erreurs de transcription, et d'autre part que l'effet bénéfique de la rétroaction est surtout dû au fait qu'elle rapproche la requête d'un document type et non au fait qu'elle élargisse le vocabulaire de la requête. Ces résultats incitent à poursuivre l'effort d'amélioration des techniques de traitement des thèmes en direction d'une meilleure représentation des thèmes, si possible sous la forme d'un document.