Approche statistique pour l'analyse objective et la caractérisation de la voix dysphonique
Institution:
AvignonDisciplines:
Directors:
Abstract EN:
Still currently, assessment of the pathological voice quality and the reasons of its deterioration is the main clinical worry of the medical profession. In front of the limits of the auditory judgment of the vocal dysfunction, the voice therapists strongly express the need of an objective method for assessing the quality of the pathological voice, complementary to the perceptual analysis. In this context, this thesis is interested in the adaptation of techniques drawing upon the Automatic Speaker Recognition domain to the dysphonic voice classification task according to the grade of the GRBAS scale. Its objective is to acquire a better understanding of dysphonia by using an automatic classification system as a tool of characterization of associated acoustic phenomena in the speech signal in order to provide experts with novel knowledge on voice degradation. In this way, three research axes are proposed : (1) a comparison between different parametric representations of the speech signal (spectral, cepstral, predictive) showed the interest of the spectral analysis in this experimental context, as well as the relevance of the dynamic information. (2) a study, focusing on the manner in which the acoustic features related to dysphonia are spread on the overall frequency domain, outlined the relevance of the [0-3000]Hz frequency band. (3) a phonetic study which the main observation highlights the relevance of the consonant class (notably of the unvoiced consonants) rather unexpected given the type of studied pathology. This study permitted the automatic system to fulfill its role of a tool characterizing pathological phenomena, and thus putting them in evidence (for example the VOT) for a more extensive phonetic and clinical expertise
Abstract FR:
Toujours à l'heure actuelle, l'évaluation de la qualité de la voix pathologique et des causes de sa dégradation sont la préoccupation clinique principale du corps médical. Face aux limites du jugement auditif du dysfonctionnement vocal, les thérapeutes de la voix ressentent le besoin pressant d’une méthode d’évaluation objective de la qualité de la voix pathologique, complémentaire à l’analyse perceptive. Cette thèse s'inscrit dans ce contexte en s'intéressant à l'adaptation des techniques de Reconnaissance Automatique du Locuteur à la tâche de classification des voix dysphoniques selon le grade de l'échelle GRBAS. Son objectif est d'acquérir une meilleure compréhension des phénomènes acoustiques liés à la dysphonie en assimilant le système de classification automatique à un outil de caractérisation des phénomènes pathologiques dans le signal de parole en vue d'apporter aux experts humains de nouvelles connaissances sur les altérations de la voix. Pour cela, trois axes de recherche sont proposés : (1) une comparaison entre différentes représentations paramétriques du signal de parole (spectrale, cepstrale, prédictive) a montré l'intérêt de l'analyse spectrale dans ce contexte expérimental, ainsi que celui des informations dynamiques. (2) une étude portant sur la manière dont les caractéristiques acoustiques de la dysphonie sont dispersées sur l'ensemble de l'espace fréquentiel a relevé la pertinence de la bande de fréquences [0-3000]Hz. (3) une étude phonétique dont la principale observation concerne la pertinence de la classe des consonnes (notamment des sourdes) exprimant un résultat plutôt inattendu sachant le type de pathologie étudiée. Cette étude a permis au système automatique de remplir pleinement son rôle d'outil caractérisant les phénomènes pathologiques et de mettre en évidence des phénomènes (par exemple le VOT) nécessitant une expertise phonétique et clinique approfondie