thesis

Perception binaurale pour l'analyse de scène auditive en robotique

Defense date:

Jan. 1, 2013

Edit

Institution:

Paris 6

Disciplines:

Authors:

Directors:

Abstract EN:

Humans have auditive capabilities described in an engineering point of view as impressive. For example, a human listener can extract information about a speaker's identity, message, temper and position in space, from a speech signal. Thus, regarding the advances of interactive robotics, it is needed to equip robots with such capabilities. This thesis addresses the recognition and localization of speakers (and eventually other sound sources). Previous works have mostly treated these tasks in mono and multi-microphone contexts respectively. We treat them in a humanoid robotic point of view, using auditive binaural signals. First, the speaker recognition conceived approach uses MFCC coding and Gaussian Mixture Models (GMM). Then, an observation of the sound source localization literature showed a disagreement on the acoustic cue extraction techniques. A comparison of the previously presented azimuth and distance used cues is thus made and taken benefit of for adopting the best judged cues for a presented localization approach. This approach separately estimates the source azimuth and distance. Azimuth estimation relies on Interaural Time and Level Differences (ITDs and ILDs) computed in function of the frequency, at the outputs of cochlear fiterbanks. Distance estimation uses frequency-dependent Direct-to-Reverberant sound energy Ratios (DRR). In each of the azimuth and distance cases, a neural network learns to estimate the corresponding coordinate. Human hearing effects have been taken into account, notably the duplex effect separating the usefulness of ITDs and ILDs in function of the frequency and the precedence effect helping to reduce the bad consequences of the presence of sound reflections in the environment. To evaluate the proposed systems, environment and robotic-related constraints, like noises and reverberations, should be taken into account. To do that, simulation and recorded databases including such constraints have been established. The evaluation addresses multiple aspects of the robot operation in a realistic environment, and demonstrate the conceived approaches reliability. Nevertheless, a sensitivity to certain training and testing conditions mismatches is witnessed, and can be avoided by multi-conditional trainings. The established works hypothesize the presence of only one sound source in the environment and only use sound information. We finally propose improvements on these two aspects in guidelines for a multi-source localization approach, and a visio-auditive learning-based localization technique respectively.

Abstract FR:

L'homme est capable d'accomplir des tâches auditives décrites en ingénierie comme étant impressionnantes. Par exemple, à partir d'un simple signal de parole, il peut extraire des informations sur l'identité, le message, l'humeur, et la position dans l'espace d'un locuteur. Compte tenu des avancées de la robotique interactive, il y a besoin de munir les robots de telles capacités auditives. Cette thèse traite la reconnaissance et la localisation de locuteurs (et éventuellement d'autres sources de son), tâches souvent précédemment traitées dans des contextes mono et multi-microphones respectivement. Nous traitons ces problèmes sous l'angle de la robotique humanoïde, impliquant ici des signaux auditifs binauraux. L'approche envisagée pour la reconnaissance de locuteurs repose sur un codage MFCC et des modèles de mixture de gaussiennes (GMM). Ensuite, une observation de l'état de l'art concernant la localisation de sources sonores a montré un grand désaccord sur les techniques d'extraction d'indices acoustiques. Une comparaison des différents indices d'azimut et de distance proposés dans la littérature est donc exécutée et les indices jugés meilleurs sont adoptés dans la suite où nous présentons une approche de localisation. Elle consiste en une estimation d'azimut d'une part, puis de distance d'autre part. L'estimation d'azimut s'appuie sur les différences interaurales de temps et d'énergie (ITD et ILD) calculées en fonction de la fréquence, aux sorties de bancs de filtres cochléaires. L'estimation de distance utilise le rapport des énergies directes sur réverbérantes, dépendant de la fréquence. Dans chacun de ces cas, un réseau de neurones artificiel apprend à estimer la donnée correspondante. Certains effets de l'audition humaine ont été pris en compte, notamment l'effet duplex séparant les pertinences des ITDs et ILDs en fonction de la fréquence, et l'effet de précédence aidant à contourner les conséquences de la présence de réflexions d'ondes sonores dans l'environnement. L'évaluation des systèmes proposés doit prendre en compte des contraintes environnementales (telle que la présence de bruit et de réverbérations) rencontrées en robotique. Dans ce but, des bases de données incluant ces contraintes ont été établies, en simulation et en enregistrements réels. L'évaluation porte sur plusieurs aspects du fonctionnement d'un robot dans une pièce réaliste, et démontre la stabilité des approches présentées. Pourtant, une sensibilité à certains changements de conditions entre l'apprentissage et le test de nos systèmes doit être abordée, et peut être contournée par des apprentissages multi-conditionnels. Les travaux effectués supposent la présence d'une seule source sonore d'intérêt (locuteur) dans l'environnement, et n'utilisent que le son. Des propositions d'amélioration sur ces deux aspects sont finalement présentées, par des lignes directives d'un système de localisation multi-sources, et une technique de localisation par apprentissage visio-auditif respectivement.