Evaluation transparente du traitement des éléments de réponse à une question factuelle
Institution:
Paris 11Disciplines:
Directors:
Abstract EN:
Question answering systems (QAS) allow a user to search a precise information in a huge corpus like the Web. These systems are complex, using natural language processing (NLP) techniques. Evaluation campaigns are organized to evaluate their final performance but research teams still need diagnostic evaluations to know the reasons of their successes and their failures. However there are no tools or methods to produce systematic evaluations of linguistic criteria for such systems. The goal of this work is to propose a methodology based on the glass box evaluation of intermediary results produced by QAS. This methodology makes use of both overall performance evaluation and corpus analysis. Therefore we will discuss the usual methods of evaluation and their limits in terms of diagnostic evaluation. Our first step will be to examine evaluation procedures, both of final results and of results produced by each component, in order to determine which elements are most relevant to a finer-grained evaluation of linguistic strategies used by QAS. This study will allow us to shed light on the methodological principles guiding a glass box diagnostic evaluation of QAS. Ln the second pan of this work we will discuss the typical errors that occur in QAS in order to review which functions would be required in creating a specific tool for systematic error analysis. This lead us to the creation of REVISE (Research, Extraction, Visualisation and Evaluation), a tool that stores intermediary results of a system for further annotation, modification, visualisation and evaluation. We will also be discussing the tool's genericity by applying it to the results of another QAS : RITEL. Finally we carried out two types of studies, successively applying REVISE to two different QAS : FRASQUES and QALC. The first study concems a linguistic criterion which we have called the "focus" - extracted during question analysis - and its contextual variations in the answer sentences selected bv the svstem. The second studv deals with the extraction mIes for Drecise answers.
Abstract FR:
Les systèmes de questions-réponses permettent à un utilisateur de rechercher une information précise dans un corpus de données massif, comme le Web. Ce sont des systèmes complexes qui utilisent des techniques de traitement automatique des langues (TAL). Les campagnes d'évaluation sont organisées pour évaluer leur performance finale, mais les équipes de recherche doivent ensuite réaliser des évaluation de diagnostic pour savoir les raisons de leurs succès et de leurs échecs. Or, il n'existe ni outil, ni méthode pour réaliser des évaluations systématiques de critères linguistiques pour de tels systèmes. L'objectif de ce travail est de proposer une méthodologie d'évaluation transparente des résultats intermédiaires produits par les systèmes de questions-réponses, en combinant à la fois une évaluation de performance et une analyse de corpus. Ainsi, nous discuterons de l'évaluation telle qu'elle est menée pour ces systèmes, et des limites rencontrées pour une évaluation de diagnostic. Dans un premier temps, nous nous interrogerons sur les pratiques d'évaluation, qu'elles portent sur les résultats finaux d'un système ou bien sur ceux que produisent les différents composants, dans l'optique de dégager les tenants et les aboutissants d'une évaluation plus fine des stratégies linguistiques mise en oeuvre au sein des systèmes de questions-réponses. Cette étude nous permettra de dégager les principes d'une méthodologie d'évaluation de diagnostic transparente pour les systèmes de questions-réponses. Dans un deuxième temps, nous nous sommes intéressée aux erreurs classiques d'un système de questions-réponses afin de détailler les fonctionnalités nécessaires à un outil de diagnostic systématique de ces erreurs. Ceci nous a conduit à la création d'un outil d'évaluation, REVISE (Recherche, Extraction, VISualisation et Evaluation), qui permet de stocker les résultats intermédiaires d'un système de façon à en disposer pour les annoter, les modifier, les visualiser et les évaluer. Nous avons également discuté la généricité de cet outil à l'aide des résultats du système de questions-réponses RITEL. Enfin, nous avons mené à l'aide de notre outil deux types d'études sur les systèmes de questions-réponses FRASQUES et QALC, l'une portant sur le critère linguistique focus extrait lors de l'analyse des questions et sur ses variations en contexte dans les phrases réponses sélectionnées par le s stème; l'autre sur l'application des règles d'extraction de réponses précises