thesis

Contribution des indices statistiques au mécanisme de segmentation de la parole en mots : stades précoces et matures du développement du langage

Defense date:

Jan. 1, 2011

Edit

Institution:

Paris 5

Disciplines:

Authors:

Directors:

Abstract EN:

Speech is a continuous signal. Yet the continuous nature of speech hardly seems to pose a problem for everyday listening, as the subjective experience is a string of distinct words. The aim of this thesis is to contribute to a better understanding of speech segmentation mechanisms. The first part of this thesis investigates the segmentation problem when speech is regarded as a purely auditory signal. The second part takes into account the audiovisual nature of speech. In the first part, we explore some major questions related to the segmentation problem: (1) How do infants bootstrap speech segmentation? We bring experimental data showing that French 8-months-old infants can use in combination transitional probabilities computations between syllables (TPs) and the familiar word Mommy, to segment a relatively complex artificial language. We propose that infants can combine top-down and bottom-up strategies to start parsing speech into word constituents. (2) Does prior linguistic knowledge have influence on the segmentation process of a novel language? Our results show that French adults' knowledge of phonotactic regularities in their first language impacts their ability to use TPs to segment a novel language. Our data, in parallel with existing evidence of the relative weight of TPs and other segmentation cues allow us to situate TP cues in a hierarchical framework of speech segmentation cues. In the second part on this thesis, we consider the contribution of visual cues to speech perception, asking a new question: (3) What is the relative contribution of segmentation cues available, in the one hand on the visual modality, in the other hand on the auditory modality. Our data suggest that when adults are presented with audiovisual speech segmentation mechanism based on TP computations operates on the couple (phonemes, lip gestures) of the syllables as a whole perceptual unit. Moreover, TP information, available on the auditory and on the visual modality does not seem to be exploited.

Abstract FR:

La parole est un signal continu. Cependant, l’auditeur perçoit la parole comme une suite d’unités distinctes : les mots. Comment l’enfant découvre-t-il la forme sonore des mots de sa langue ? Comment l’adulte accède-t-il aux mots dans le flux continu du discours ? L’objectif de cette thèse est de contribuer à une meilleure compréhension des mécanismes de la segmentation de la parole en mots. La première partie s’intéresse au problème de la segmentation lorsque la parole est considérée comme un signal purement auditif. La seconde partie aborde cette question en tenant compte du fait que la parole est un phénomène audiovisuel. Dans la première partie, nous explorons certaines questions majeures concernant le problème de la segmentation : (1) Comment se fait l’initialisation de la segmentation chez le jeune enfant ? Nous apportons des données expérimentales montrant que les enfants de 8 mois apprenant le français, peuvent combiner les probabilités de transition entre les syllabes (TPs) avec un autre indice, le mot familier /mamã/, pour segmenter un langage relativement complexe. Nous proposons que les enfants pourraient initier la segmentation en utilisant de façon concomitante des procédures top-down et bottom-up. (2) L’expérience linguistique au stade mature du langage intervient-elle dans le processus de segmentation d’un langage nouveau ? Nous fournissons des données expérimentales montrant que les connaissances que les adultes francophones ont des caractéristiques de leur langue maternelle modulent la segmentation, via les TPs, d’un langage nouveau. Ces données, en complément de précédents résultats, nous permettent d’intégrer les TPs dans un modèle hiérarchique des indices de segmentation. Dans la seconde partie, nous tenons compte de la contribution des informations visuelles à la perception de la parole et posons une nouvelle question: Quel est l’apport respectif des indices de segmentation disponibles selon les modalités auditive et visuelle ? Nos résultats suggèrent que lorsque le langage est présenté aux adultes de manière audiovisuelle, le mécanisme de segmentation s’appuyant sur le calcul des TPs entre les syllabes opère sur le couple (phonèmes, visèmes) des syllabes comme une unité perceptive. Nos données suggèrent, en outre, que les informations de segmentation disponibles selon les modalités auditive et visuelle considérées indépendamment ne sont pas exploitées.