
Linguistic and phonetic investigations of French-Algerian Arabic code-switching : large corpus studies using automatic speech processing

Defense date:

Dec. 3, 2019



Paris 3


Abstract EN:

This thesis proposes linguistic and phonetic investigations of French-Algerian Arabic code-switching. A corpus of 7h30 of speech (5h of spontaneous speech and 2h30 of read speech) has been designed with 20 males and females French-Algerian Arabic speakers.This thesis also proposes code-switching speech data processing methods such as language segmentation, code-switching utterance segmentation and transcription of French and Algerian Arabic dialect. Automatic speech alignment methods of the code-switching data are proposed with combined alignment of two monolingual alignments. We conducted experiments based on language automatic identification and automatic alignment with variations that deals with the question of the influence of a phonological system of a language A on code-switching speech in phonetic productions of French and Algerian Arabic. We dealt first with identifying the language change boundaries. We performed also a variation study on vowel variation, in both French and Arabic productions. Finally, we dealt with three types of consonant variation in the code-switching speech: gemination, emphatization and voicing consonant as variants in production. The results shown that the code-switching French-Algerian Arabic is characterized by very short language switches witch constitute a big challenge to the code-switching languages identification . The code-switching has an impact of the phonetic variation in both vowel and consonants. The code-switching allows the speakers to produce less vowel and consonant variation than the monolingual speech.

Abstract FR:

Cette thèse présente des recherches linguistiques et phonétiques sur le code-switching Français-Arabe Algérien. Un corpus de 7h30 de parole (5h de parole spontané et 2h30 de parole lue) a été constitué en enregistrant 20 hommes et femmes parlant le français et l'arabe algérien. Cette thèse présente également les méthodes de traitement des données orales du code-switching telles que la segmentation de la parole, la segmentation des énoncés de code-switching ainsi que la transcription du français et du dialecte arabe algérien. Cette thèse présente également des méthodes d'alignement automatique de ces données bilingues ainsi qu'un alignement combiné de deux alignements monolingues. Nous avons mené des expériences basées sur l'alignement automatique avec des variations qui traitent de la question de l'influence d'un système phonologique d'une langue A sur des productions phonétiques en code-switching du français et de l'arabe algérien. Nous avons d'abord abordé la variation en réalisant une étude sur la variation des voyelles, dans des productions en langue française et en arabe algérien. Nous avons aussi abordé les consonnes emphatiques et l'emphatisation des deux langues. Enfin, nous avons également travaillé sur les géminées et la gémination dans les productions langagières en code-switching. Les résultats ont montré que le code-switching FR-AA se caractérise par des changements de langues très courts qui sont un réel défi pour l’identification des langues dans le code-switching. Le code-switching a un impact sur la variation phonétique des voyelles et des consonnes. La parole du code-switching permet au locuteur de produire moins de variation de voyelles et de consonnes que la parole monolingue.