thesis

Indexation de données audio : segmentation et regroupement par locuteurs

Defense date:

Jan. 1, 2000

Edit

Institution:

Paris, ENST

Disciplines:

Abstract EN:

Pas de résumé disponible.

Abstract FR:

Le traitement de l'information multimedia requiert de nouveaux outils tels des analyseurs de contenus ou indexeurs. Parmi ceux-ci, l'indexation par locuteurs d'un document audio tient une place essentielle. Il s'agit de savoir qui parle et quand afin de saisir la cohérence du dialogue. Nous proposons un système d'indexation qui répond aux hypothèses suivantes : aucune connaissance a priori sur les locuteurs ou sur le langage, le nombre de locuteurs est inconnu et les personnes ne parlent pas simultanément. Ce système d'indexation se décompose en plusieurs étapes : la segmentation en locuteurs, le regroupement des segments, la modélisation des locuteurs et enfin, la reconnaissance de la séquence de locuteurs. Ensuite, nous nous concentrons sur les deux premières étapes. La segmentation en locuteurs vise à obtenir des segments ne contenant les paroles que d'un seul locuteur et les plus longs possibles. Nous mettons en œuvre une technique de segmentation en deux passes. La première passe détecte les changements de locuteurs potentiels. Elle repose sur le calcul du rapport de vraisemblance généralise entre deux portions de signal. La seconde passe de notre technique de segmentation est basée sur le critère d'information bayésien qui permet de valider ou non les points de changement de locuteurs résultant de la première passe. Une fois les segments de locuteurs obtenus, l'étape suivante consiste à regrouper tous les segments appartenant à un membre locuteur, afin d'obtenir un important volume de données dudit locuteur pour la construction d'un modelé fiable. Le rapport de vraisemblance et le critère d'information bayésien ayant prouvé leur efficacité au cours de la segmentation, nous les utilisons respectivement comme critère de regroupement et comme critère d'arrêt pour le regroupement hiérarchique. L'efficacité des algorithmes proposes a été évaluée sur différentes bases de données de parole telles que timit, switchboard, des bases du cnet et des journaux télévises.