thesis

Caractérisation des documents sonores : Etude et conception d'un procédé de calcul rapide de signature audio basée sur une perception limitée du contenu

Defense date:

Jan. 1, 2008

Edit

Institution:

Caen

Disciplines:

Abstract EN:

The description of the sound characteristics of a document is a key for treatments involving automatic audio data. The objective of our work is to describe a method able to generate rapidly a signature of a sound file by the extraction of physical characteristics over the file (spectral analysis of signal). The innovation of our proposal concerns the organization of the extraction of samples and the analysis mode to provide quickly a signature representative of musical content. The organization of extraction defines how samples are taken. Our proposal aims to achieve a statistical sequential minimum sampling allocated over the sound file. The principle of this proposal is based on the assumption that the collection of a small quantity of small duration samples is sufficient to have information summarizing effectively the perceived rhythm. Our validation method is based on an error objective recognition. We show that the signature can compare the files between them and accurately identify identical pieces even if they are not complete. We also show that it can combine two halves of the same song with a significant success rate. On the other hand the validation is based on the comparison of the rhythmical signature with human perception and also on the distinction of sound recordings according to the language spoken. All tests provide interesting results given the time of calculation.

Abstract FR:

La description des caractéristiques sonores d'un document est un élément clé pour réaliser des traitements automatiques impliquant des données audio. L'objectif de nos travaux est de décrire une méthode permettant de générer de manière compacte et rapide une signature d'un fichier sonore par l'extraction de caractéristiques physiques réparties sur le fichier (analyse spectrale du signal). L'innovation de notre proposition porte sur l'organisation de l'extraction des échantillons et sur le mode d'analyse pour fournir très rapidement une signature représentative du contenu musical. L'organisation de l'extraction définit la manière dont les échantillons sont prélevés. Notre proposition vise à réaliser un échantillonnage statistique séquentiel minimal réparti sur le fichier sonore. Le principe de cette proposition est basé sur le postulat que la collecte d'une faible quantité d'échantillons de petite durée suffit pour avoir une information résumant de manière efficace le rythme perçu. Notre méthode de validation repose d’une part sur une mesure d’erreur de reconnaissance objective. Nous montrons que la signature permet de comparer les morceaux entre eux et d’identifier fidèlement les morceaux identiques même si ceux-ci ne sont pas complets. Nous montrons également qu'elle peut associer deux moitiés d'un même morceau avec un taux de réussite non négligeable. La validation repose d'autre part sur la comparaison de la signature rythmique avec la perception humaine mais aussi sur la distinction des documents sonores en fonction de la langue parlée. Tous les tests de validation apportent des résultats intéressants compte tenu du temps de calcul.