Analyse du discours conversationnel dans le cadre de communications médiées par ordinateur
Institution:
Aix-MarseilleDisciplines:
Directors:
Abstract EN:
Dialogues are a central part of human society, and technological improvements only strengthen their use in more and more situations. Additional tools used to communicate from a distance allow the collection of large amounts of data, which can be used to produce various analyses and automatic systems.Conversational discourse analysis is a partial response to understand some aspects of language production in dialogues. It is used to characterize the different interactions between the messages of a dialogue, and thus highlight the different issues or identify the exchanges that are needed to solve the dialogue's main objectives.Discourse parsing is a challenging task. The high number of existing theories of discourse analysis shows that humans have a hard time defining discursive structures that model all possible interactions. This difficulty makes the production of annotated corpora expensive and the low amount of discursively annotated data makes the use of supervised learning algorithms impractical.In this thesis, I propose to produce representations of conversational discourse based on data that is partially annotated with discourse structures. The thesis is part of the DATCHA project which allowed me access to a large corpus of dialogues owned by the Orange company. This corpus allows us to explore different strategies in order to produce discourse representations: rely on an end-to-end model that predicts customer satisfaction; rely on dialogue acts to produce sentence embeddings; using supervised algorithms on an automatically enriched corpus.
Abstract FR:
Les dialogues ont une place importante dans la société et celle-ci s’accroît au fur et à mesure que la technologie progresse. Il existe de plus en plus d'outils pour dialoguer à distance permettant la collecte d'une masse importante de données, utilisables pour réaliser différentes analyses et divers systèmes automatiques.L'analyse du discours conversationnel est une réponse partielle pour comprendre certains aspects de la production du langage dans les dialogues. Une telle analyse permet de caractériser les interactions entre les messages d'un dialogue et ainsi faire ressortir les différents enjeux ou d'identifier les échanges nécessaires pour faire progresser le dialogue.Produire ces analyses est une tâche complexe. Le nombre important de théories d'analyse du discours illustre bien la complexité pour un humain à définir des structures discursives modélisant l'ensemble des interactions. Ceci rend la production d'un grand corpus annoté très coûteuse et le peu de données annotées rend difficile l'utilisation d'algorithmes d'apprentissage supervisés.Dans cette thèse, je propose de produire des représentations du discours conversationnel en s'appuyant sur peu de données annotées discursivement. La thèse s'inscrit dans le cadre de l'ANR DATCHA me donnant accès à un grand corpus de tchats provenant de l'entreprise Orange. Ce corpus me permet d'explorer plusieurs stratégies pour produire des représentations du discours: s'appuyer sur un modèle bout-en-bout prédisant la satisfaction des clients; se fonder sur des annotations en actes de dialogue pour produire des plongements de phrases; utiliser des algorithmes supervisés sur un corpus enrichi automatiquement.