thesis

Accents régionaux en français : perception, analyse et modélisation à partir de grands corpus

Defense date:

Jan. 1, 2009

Edit

Institution:

Paris 11

Disciplines:

Abstract EN:

This dissertation addresses the study of French regional accents based on two large corpora totalling over 100 hours of face-to-face speech (PFC) and telephone speech. We investigated the perception, acoustic characteristics as well as automatic classification of French varieties (standard French, French spoken in the South of France, Alsace, Belgium and Switzerland) in order to model segmental and prosodic levels. First, perceptual experiments were conducted to determine French listeners’ capacities to discriminate between French accents. Results were analysed using scaling and clustering techniques. Next, acoustic analyses relying on automatic phonemic alignment were carried out measuring formants, fundamental frequency, duration and intensity so as to produce linguistically-motivated segmental and prosodic features. Furthermore, region-specific pronunciation tendencies were quantified exploiting new alignments with augmented pronunciation dictionaries including relevant variants. The different methods allowed us to highlight characteristic pronunciation traits such as the realisation of nasal vowels, /O/ fronting, the devoicing of voiced consonants and word-initial stress. Finally, automatic classification experiments were carried out with decision trees and SVM using linguistically-motivated feature vectors as input. Tests on samples lasting a few minutes each yielded automatic identification rates up to 80% on a 5-accent identification task.

Abstract FR:

Cette thèse est consacrée à l'étude d’accents régionaux en français, à partir de deux grands corpus de parole face à face (PFC) et de parole téléphonique. Nous avons étudié la perception humaine et les caractéristiques acoustiques de différentes variétés de français (français standard, français du sud de la France, d'Alsace, de Belgique et de Suisse) afin de les modéliser dans leurs aspects segmentaux (articulation des phonèmes) et prosodiques (accentuation et intonation). Dans un premier temps, des tests perceptifs ont permis d’évaluer quels accents sont distingués par des auditeurs français. Les résultats ont été analysés par des techniques de clustering et de scaling. Dans un second temps, nous avons mesuré des paramètres acoustiques (formants, fréquence fondamentale, durée et intensité) en nous appuyant sur les frontières temporelles des segments phonémiques fournies par un système d’alignement standard, ce qui nous a également permis de dégager certains patrons prosodiques spécifiques. Nous avons en outre introduit des variantes dans le dictionnaire de prononciation utilisé pour l'alignement, afin d'observer les variantes choisies par le système. Ces deux méthodes ont permis de mettre en évidence un certain nombre de traits pertinents concernant la réalisation des voyelles nasales, l’antériorisation du /O/, le dévoisement des consonnes sonores et l’accentuation initiale. Finalement, nous avons appliqué des techniques de classification automatique (arbres de décision et SVM) sur nos données : les indices extraits, motivés linguistiquement, ont permis d'obtenir des taux d'identification corrects allant jusqu’à 80 % sur des échantillons de quelques minutes de parole.