thesis

SIMDIAL, un paradigme d'évaluation automatique de systèmes de dialogue homme-machine par simulation déterministe d'utilisateurs

Defense date:

Jan. 1, 2007

Edit

Institution:

Paris 11

Disciplines:

Directors:

Abstract EN:

Today there is no standard methodology or even common practice to evaluate natural language dialog systems (NLDS). The SIMDIAL paradigm offers to assess such systems, using simulated users which take dynamically part in dialogs with the evaluated systems. Thus observations of dialogic behaviours of NLDS are possible without needing experiments with real users, which are often costly. A deterministic user simulator has then been developed, which interacts with the evaluated NLDS at the natural language level in order to be as generic as possible on the evaluated systems point of view. The evaluation criteria used in the SIMDIAL paradigm are classical ones, which are task completion and the number of exchanges between the simulated user and the systems to complete the task. Furthermore the behaviours of the simulated users can deterministically vary according to different parameters such as a directive or non-directive strategy, the number of information the simulated user provides by sentence, and some disruptive phenomena like hesitations or ambiguities. These variations give the paradigm diagnose capacities according to the generated behaviours. The usability of the SIMDIAL paradigm has been confirmed by the evaluation of two NLDS. The first permitted to search restaurant in Paris and the second provided stock markets information. Results of these experiments have particularly showed differences on efficacy between the different strategies of the simulated users for each of the evaluated systems. It has also demonstrated how the two assessed systems deal with the disruptive phenomena generated by the simulator.

Abstract FR:

Il n'existe pas aujourd'hui de méthodologie standard ni même de pratique communément admise pour évaluer les Systèmes de Dialogue Homme-Machine (SDHM). Le paradigme SIMDIAL propose d'évaluer de tels systèmes en simulant des utilisateurs. Ces utilisateurs simulés prennent dynamiquement part à des dialogues avec les systèmes évalués, rendant possible l'observation des comportements de ces derniers sans nécessiter d'expérimentations avec des utilisateurs réels, souvent coûteuses. Un simulateur d'utilisateurs a été réalisé, qui interagit avec les SDHM évalués au niveau du langage naturel afin d'être le plus générique possible par rapport à eux. Les critères d'évaluation utilisés dans le paradigme SIMDIAL sont la résolution des tâches par les systèmes évalués ainsi que le nombre de tours de parole pour mener à bien cette résolution. Par ailleurs les comportements des utilisateurs simulés varient en fonction de plusieurs paramètres, comme leur stratégie directive ou non, le nombre d'informations qu'ils fournissent par tour de parole, ou encore des phénomènes perturbateurs tels que les hésitations ou les ambiguïtés. Ces paramètres offrent ainsi des capacités de diagnostic des SDHM évalués sur les différents comportements générés. Les expériences réalisées valident le paradigme SIMDIAL sur deux SDHM, l'un permettant de trouver des restaurants à Paris et l'autre d'obtenir des informations boursières. Les résultats obtenus ont notamment permis d'apprécier des différences d'efficacité entre les différentes stratégies de l'utilisateur simulé pour chacun des systèmes évalués, ainsi que leur résistance aux phénomènes perturbateurs générés par le simulateur.