Caractérisation et identification d'accents étrangers en français
Institution:
Paris 11Disciplines:
Directors:
Abstract EN:
The thesis focuses on the characterization and the identification of foreign accents in French. How many accents may a native French speakers recognize and which cues does (s) he use ? Our interest concentrates on French productions from speakers of different mother tongues : English, German, Arabic, Spanish, Italian and Portuguese, also compared with natives French speakers. Using automatic speech processing, our objective is to identify the most reliable acoustic cues in order to distinguish between accents and link these cues with human perception. We measured acoustic parameters such as the duration and voicing rate for consonants, the first two formants values for vowels, the number of schwas produced, the extension of the vowel before a silent schwa, the difference between fundamental frequency of the penultimate vowel and of the final schwa, and the percentages of confusion obtained using automatic alignments with non-standard pronunciation variants. Machine learning techniques were used to select the most discriminating cues differencing between different accents. The results obtained with automatic identification in discriminating between 7 linguistic origins are comparable with those obtained during perceptive tests. With the perceptive tests as well as with automatic identification natives speakers of French are best recognized between seven accents. The cues specific to each of the studied accents can be used in automatic recognition in order to reduce the high error rate.
Abstract FR:
Cette thèse a pour sujet la caractérisation et l’identification des accents étrangers en français. Combien d’accents un natif français peut-il reconnaître et quels sont les indices qu’il utilise ? Notre intérêt se porte sur les productions en français de locuteurs anglais, allemand, arabes, espagnols, italiens et portugais, également comparés avec des natifs du français. L’objectif est d’identifier grâce au traitement automatique de la parole les indices acoustiques les plus fiables pour distinguer entre les accents et mettre en relation ces indices avec la perception humaine. Nous avons mesuré des paramètres acoustiques tels que la durée et le taux de voisement pour les consonnes, les valeurs des deux premiers formants pour les voyelles, le nombre de e muets réalisés, l’allongement de la voyelle précédant un e muet, le différence de fréquence fondamentale entre la voyelle pénultième et le e muet final, ainsi que les taux de confusions obtenus lors des alignements automatiques avec variantes de prononciation non standard. Des techniques d’apprentissage automatique ont été utilisées pour sélectionner les traits les plus discriminants afin de différencier entre les différents accents. Les résultats d’identification automatique pour la discrimination entre 7 origines linguistiques sont comparables avec les résultats obtenus lors de tests perceptifs. Autant lors des tests perceptifs qu’en identification automatique, les locuteurs français sont les mieux reconnus. Les traits spécifiques à chacun des accents étudiés peuvent être utilisées en reconnaissance automatique, dans la perspective de diminuer les taux d’erreurs.