thesis

Individualisation des indices spectraux pour la synthèse binaurale : recherche et exploitation des similarités inter-individuelles pour l’adaptation ou la reconstruction de HRTF

Defense date:

Jan. 1, 2009

Edit

Institution:

Le Mans

Disciplines:

Authors:

Directors:

Abstract EN:

This Ph. D. Thesis deals with the problem of Head-Related Transfer Functions (HRTFs) individualization, in the context of binaural synthesis. HRTFs embed ail the acoustical phenomena occurring on the path between a source at a given position in space and the listener's eardrums. As these linear filters convey all free field localization cues needed by the auditory system to perceive a 3D sound scene, HRTF can be used to sculpt the signals to be reproduced over headphones in order to create convincing spatialized auditory displays : this is the aim of binaural synthesis. HRTFs strongly depend on idiosyncratic morphological features (overall shape of the head, fine structure of the pinnae), and as a result, the use of non-individual HRTFs often leads to perceptual artifacts. Unfortunately, exhaustive acoustic measurements of individual HRTFs are long and uncomfortable for subjects, and it is therefore expected to develop alternative techniques to obtain customized HRTFs : this is the problem of individualization. As they represent the most complex and the most individual part of HRTFs, our study focusses on the colorations induced by pinna filtering, known as spectral cues. The founding assumption of our work is the following : although HRTFs contain intrinsically individual features, common spatio-frequential behaviours can be found from subject to subject. Such similarities may be hidden by the existence of two morphological sources of variability, being the size and orientation of ear pinnae. We develop tools whose aim is to go beyond apparent differences, and to focus on what is really specific of each individual. We propose two technical solutions for HRTF individualization, based on the use of a HRTF database. The first solution uses a 3D model-based morphological matching of pinnae shapes, to properly adapt existing non-individual HRTFs from a database, so that they fit to a new listener. To transform HRTF data, we propose a combination of frequency scaling and rotation shift, whose parameters are predicted by the result of the morphological comparison. The method is designed on the basis of data acquired from six subjects, and it is shown objectively that a better customization is achieved compared to the state-of-the-art technique. The second solut ion aims at reconstructing HRTF for any direction, from only sparse individual HRTF measurements. In order t o overcome the performance of classical blind interpolation techniques, additional knowledge is injected in the reconstruction process :HRTF prototypes are first extracted from the analysis of a large HRTF database, and serve as a well-informed background in a pattern recognition process. An objective assessment shows that , compared to previously developped techniques, HRTF reconstruction achieves a better spatial fidelity with the proposed method. FinaIly, this result is confirmed by a subjective evaluation based on a new protocol.

Abstract FR:

Le travail de thèse qui est rapporté dans le présent document a porté sur le problème de l'individualisation des HRTF pour la synthèse binaurale. Les HRTF sont les filtres linéaires, chacun associé à une direction de l'espace, qui portent en eux l'expression de tous les indices physiques de localisation nécessaires pour une perception de l'espace par le système auditif. La synthèse binaurale utilise avantageusement ces filtres pour sculpter les signaux à présenter aux tympans de l'auditeur, afin de lui procurer l'illusion d'une scène sonore réaliste. Les HRTF étant très liées à la morphologie de la tête et des pavillons, la spatialisation n'est correctement assurée que si ces filtres sont bien adaptés à l'auditeur. Cependant, la mesure exhaustive des HRTF est coûteuse et inconfortable, et il s'agit donc de développer des moyens alternatifs pour les obtenir : c'est le problème de l'individualisation. On se focalise sur les indices spectraux de la localisation auditive, c'est-à-dire les colorations du spectre à dépendance directionnelle, qui constituent la part des HRTF la plus complexe et la plus variable d'un individu à l'autre. Le constat fondateur de nos investigations est le suivant: bien que les HRTF présentent des caractéristiques intrinsèquement individuelles, on peut dégager des évolutions spatiofréquentielles de leur spectre d'amplitude, communes d'un individu à l'autre, mais susceptibles d'être masquées par deux sources importantes de variabilité, que sont la taille et l'orientation des pavillons. Nous proposons des outils permettant de dépasser ces différences apparentes, afin de se focaliser sur ce qui est vraiment spécifique à chaque individu. Deux solutions techniques d'individualisation des HRTF sont développées en utilisant avantageusement la diversité des comportements offerte par les HRTF d'une base de données. La première solution proposée permet d'adapter, pour un nouvel auditeur, les HRTF d'un autre individu issues d'une base de données, en leur appliquant des transformations guidées par une comparaison morphologique entre les pavillons des deux sujets. Les hypothèses de travail et les outils proposés pour mettre en oeuvre la technique sont validés objectivement grâce aux données recueillies sur 6 sujets, et on montre que la méthode d'adaptation proposée dépasse les performances de l'état de l'art. La seconde solution permet de reconstruire les HRTF d'un nouvel auditeur pour une direction quelconque de l'espace à partir d'un nombre réduit de HRTF individuelles mesurées. La technique proposée est basée sur une base de données constituée des HRTF mesurées finement sur une centaine de sujets, à partir desquelles on génère des prototypes. La reconstruction des HRTF repose sur un processus de reconnaissance de formes entre les HRTF individuelles mesurées et ces prototypes. Une validation objective montre que, selon différents critères, les performances de reconstruction de la technique proposée dépassent celles de l'état de l'art. Ces résultats sont confirmés par une évaluation subjective, menée selon un protocole novateur en synthèse binaurale dynamique.