Identification du locuteur dans des émissions d'information
Institution:
Paris 11Disciplines:
Directors:
Abstract EN:
The supporting research for this thesis is to develop methodologies that use acoustic and linguistic information present in the speech signal to carry out automatic speaker recognition in broadcast news data (BN). The novelty of our study lies in a deeper exploration of the use of linguistic information for the speaker diarization task. This task consists of locating homogeneous regions within audio segments and consistently labeling them for speaker, gender, and acoustic condition. Our study is founded upon the idea that the linguistic content is a reliable source of information that in many cases the true identity of the speakers is explicitly presented. The identities of speakers are introduced in three situations: who is speaking, who just spoke and who will speak. The incorporation of the linguistic information in the current acoustic-based diarization systems can enrich the diarization process by associating the true identity of the speakers to the speech segments, and may also be able to correct some of the errors made by the acoustic-based diarization systems. This study uses 160 hours of audio data consisting of English BN data which allow us to study the automatic speaker recognition under real-world circumstances. Challenges are dealing with speech corrupted by additive noise and nonlinear distortions (i. E. Telephonic cahnnel), speech with music background, abrupt speech switching among speakers, linguistic styles produced by a wide variety of speakers (e. G. Anchors, reporters).
Abstract FR:
La motivation de cette thèse est de développer des méthodologies et des algorithmes qui utilisent l'information acoustique et linguistique codées dans le signal de la parole pour effectuer une reconnaissance automatique du locuteur. Dans ce travail, on s'intéresse plus en particulier à explorer les interactions entre l'information acoustique et linguistique permettant des améliorations significatives des performances et un enrichissement des informations extraites du signal de parole. En particulier, notre approche est fondée sur l'idée d'extraire du flux de parole transcrit, l'identité du locuteur qui est en train de parler, de le différencier de celui qui vient juste de parler et de celui qui va parler, puis de les associer aux segments appropriés. À partir de cette association, le document est structuré en fonction des locuteurs ayant prononcé un discours. Les travaux présentés sont développés à partir d'une base de données de 160 heures d'audio (journaux télévisés et radiophoniques en langue anglaise). Ces données se caractérisent par une forte hétérogénéité de contenu et permettent donc d'étudier, et de modéliser les facteurs acoustiques et linguistiques pour l'identification du locuteur dans des contextes différents et variés. Les difficultés peuvent alors provenir des conditions acoustiques dégradées : transmission téléphonique, parole sur un fond musical ou bruité, paroles superposées. Ces conditions difficiles peuvent nuire à la robustesse des algorithmes d'identification basés uniquement sur le signal acoustique. Le principal objectif de ce travail est donc de montrer que l'utilisation d'informations linguistiques complémentaires doit permettre une identification plus fiable.