Modélisation linguistique pour l'indexation automatique de documents audiovisuels
Institution:
Paris 11Disciplines:
Directors:
Abstract EN:
Most of today's methods for indexation of broadcast audio data are manual. In France, the National Audiovisual Institute (INA) is in charge more than 50,000 hours yearly broadcasted audiovisual data and over one million hours of archive data. Introduction of automatic tools in the indexation process must to be drawn to fit specificities of these real needs. The state of the art in automatic indexing of audiovisual documents is an automatic speech recognition system combined with information retrieval engine. Automatic transcription of audio track is therefore the first access to the audiovisual content and transcription errors define its relevance. One error source is the gap between the models used by the ASR system and the variability of audiovisual database. More precisely the lexical and linguistic content of automatic transcriptions is conditioned by the vocabulary and the language model (LM) of the system. The purpose of this thesis is to investigate methods for vocabulary and LM adaptation of an ASR system for indexing prospect. Two kind of audiovisual documents are considered : archive and daily broadcasted. Finding a sufficient amount of appropriate electronic texts which are contemporary to the task is one of the biggest challenges. The first solution proposed in this thesis is to build an open vocabulary LM using lexical back-off. Interactive and automatic experiences are performed on a broadcast news shows corpus. The second solution uses the web to create corpora which are contemporary to the document. Two experiments are performed. The first uses the ECHO corpus which contains archive documents dating from the forties to the nineties, and emphasizes the discrepancy between training data and documents epochs. In the second experiment algorithms are investigated to daily adapt the standard vocabulary and LM. Different corpora frameworks show the impact of selecting adaptation data.
Abstract FR:
La plupart des méthodes d'indexation de documents audiovisuels (AV) sont en pratique manuelles. En France, l'Institut National de l'Audiovisuel (INA) a en charge plus de 50 000 heures diffusées chaque année, et plus d'un million d'heures d'archives. L'automatisation du processus d'indexation doit donc être pensé afin de répondre aux spécificités de cet usage. L'état de l'art en matière d'indexation automatique AV est constitué d'un système de reconnaissance de la parole (RAP) allié à des techniques de recherches d'information. La transcription automatique est donc l'accès premier au contenu AV et les erreurs qu'elle peut contenir en détermine la pertinence. Les erreurs de transcription sont principalement dues à l'écart entre ces modèles et la réalité rencontrée dans les documents AV. En particulier, le contenu lexical et linguistique des transcriptions automatiques est conditionné par le vocabulaire et le modèle de langage (ML). Cette thèse porte sur l'adaptation du vocabulaire et du ML d'un système de RAP en vue de l'indexation de documents AV, qu'ils soient d'archives, ou contemporains. Une des difficultés est de disposer de données électroniques, qui soient appropriées à la tâche. La première solution proposée est de construire un ML à vocabulaire ouvert grâce à la technique du repli lexical. Des expériences interactives et automatiques sont menées sur un corpus de journaux télévisés. La seconde solution consiste à utiliser des données de sites Web pour constituer les ressources contemporaines à l'émission. Deux expériences sont menées. La première, sur le corpus ECHO contenant des archives des années quarante à nos jours, souligne les écarts d'époques entre les données d'entraînement et les émissions d'archive. Dans la seconde, des algorithmes sont développés pour adapter quotidiennement le vocabulaire et le ML de référence afin de transcrire des journaux télévisés. Différentes configuration de corpus montrent l'impact de la sélection des données d'adaptation.