thesis

Vers une architecture générique et pérenne pour l'évaluation en traitement automatique des langues : spécifications, méthodologies et mesures

Defense date:

Jan. 1, 2010

Edit

Institution:

Paris 13

Disciplines:

Authors:

Directors:

Abstract EN:

The development of Natural Language Processing (NLP) systems needs to determine the quality of their results. Whether aiming to compare several systems to each other or to identify both the strong and weak points of an isolated system, evaluation implies defining precisely and for each particular context a methodology, a protocol, language ressources (data needed for both system training and testing) and even evaluation measures and metrics. It is following these conditions that system improvement is possible so as to obtain more reliable and easy-to-exploit results. The contribution of evaluation to NLP is important due to the creation of new language resources, the homogenisation of formats for those data used or the promotion of a technology or a system. However, evaluation requires considerable manual work, whether to formulate human judgments or to manage the evaluation procedure. This compromises the evaluation’s reliability, increases costs and makes it harder to reproduce. We have tried to reduce and delimit those manual interventions. To do so, we have supported our work by either conducting or participating in evaluation campaigns where systems are compared to each other or where isolated systems are evaluated. The management of the evaluation procedure has been formalised in this work and its different phases have been listed so as to define a common evaluation framework, understandable by all. The main point of those evaluation phases regards quality measurement through the usage of metrics. Three consecutive studies have been carried out on human measures, automatic measures and the automation of quality computation, and the meta-evaluation of the mesures so as to evaluate their reliability. Moreover, evaluation measures use language resources whose practical and administrative aspects must be taken into account. Among these, we have their creation, standarisation, validation, impact on the results, costs of production and usage, identification and legal issues. In that context, the study of the similarities between the technologies and between their evaluations has allowed us to highlight their common features and class them. This has helped us to show that a small set of measures allows to cover a wide range of applications for different technologies. Our final goal has been to define a generic evaluation architecture, which is adaptable to different NLP technologies, and sustainable, namely allowing to reuse language resources, measures or methods over time. Our proposal has been built on the conclusions drawn fromprevious steps, with the objective of integrating the evaluation phases to our architecture and incorporating the evaluation measures, all of which bearing in mind the place of language resource usage. The definition of this architecture has been done with the aim of fully automating the evaluation management work, regardless of whether this concerns an evaluation campaign or the evaluation of an isolated system. Following initial experiments, we have designed an evaluation architecture taking into account all the constraints found as well as using Web services. These latter provide the means to interconnect architecture components and grant them accessible through the Internet.

Abstract FR:

Le développement de systèmes en traitement automatique des langues (TAL) nécessite de déterminer la qualité de ce qui est produit. Que ce soit pour comparer plusieurs systèmes entre eux ou identifier les points forts et faibles d’un système isolé, l’évaluation suppose de définir avec précision et pour chaque contexte particulier une méthodologie, un protocole, des ressources linguistiques (les données nécessaires à l’apprentissage et au test des systèmes) ou encore des mesures et métriques d’évaluation. C’est à cette condition que l’amélioration des systèmes est possible afin d’obtenir des résultats plus fiables et plus exploitables à l’usage. L’apport de l’évaluation en TAL est important avec la création de nouvelles ressources linguistiques, l’homogénéisation des formats des données utilisées ou la promotion d’une technologie ou d’un système. Toutefois, l’évaluation nécessite un important travail manuel, que ce soit pour l’expression des jugements humains ou pour la gestion du déroulement même de l’évaluation, ce qui compromet l'efficacité des évaluations, augmente leur coût et les rend difficilement reproductibles. Nous avons cherché à réduire et à encadrer ces interventions manuelles. Pour ce faire, nous appuyons nos travaux sur la conduite ou la participation à des campagnes d’évaluation comparant des systèmes entre eux, ou l’évaluation de systèmes isolés. Nous avons formalisé la gestion du déroulement de l’évaluation et listé ses différentes phases pour définir un cadre d’évaluation commun, compréhensible par tous. Le point phare de ces phases d’évaluation concerne la mesure de la qualité via l’utilisation de métriques. Cela a imposé trois études successives sur les mesures humaines, les mesures automatiques et les moyens d’automatiser le calcul de la qualité et enfin la méta-évaluation des mesures qui permet d’en évaluer la fiabilité. En parallèle, les mesures d’évaluation utilisent des ressources linguistiques dont les aspects pratiques et administratifs à travers les opérations de création, standardisation, validation, impact sur les résultats, coût de production et d’utilisation, identification et négociation des droits doivent être prises en compte. Dans ce contexte, l’étude des similarités entre les technologies et entre leurs évaluations nous a permis d’observer les points communs et de les hiérarchiser. Nous avons montré qu’un petit ensemble de mesures permet de couvrir une large palette d’applications à des technologies distinctes. Notre objectif final était de définir une architecture d’évaluation générique, c’est-à-dire adaptable à tout type de technologie du TAL, et pérenne, c’est-à-dire permettant la réutilisation de ressources linguistiques, mesures ou méthodes au cours du temps. Notre proposition se fait à partir des conclusions des étapes précédentes afin d’intégrer les phases d’évaluation à notre architecture et d’y incorporer les mesures d’évaluation, sans oublier la place relative à l’utilisation de ressources linguistiques. La définition de cette architecture s’est effectuée en vue d’automatiser entièrement la gestion des évaluations, que ce soit pour une campagne d’évaluation ou l’évaluation d’un système isolé. À partir de premières expérimentations, nous avons modélisé une architecture d’évaluation prenant en compte l’ensemble de ces contraintes et utilisant les services Web afin d’interconnecter les composants de l’architecture entre eux et d’y accéder via le réseau Internet.