thesis

Utilisation de connaissances sémantiques pour l’analyse de justifications de réponses à des questions

Defense date:

Jan. 1, 2009

Edit

Institution:

Paris 11

Disciplines:

Directors:

Abstract EN:

This thesis belongs to the domain of question-answering systems. These systems receive a question in natural language from the user and search for the answer in a collection of documents. This work relies on the notion of justification, which is formalised as a mapping between the pieces of linguistic information of the question and the corresponding elements in the answer passage. That model takes into account three categories of linguistic phenomena : paradigmatic (local) variations of terms (semantical, morphological, inference), syntagmatic links between sentence constituents, and a component of enunciative semantics linking together the remote elements (by anaphora, coreference, thematisation), in a multi-sentence context, as well mono- or multi-documents. In this work, I first describe the semi-automatic extraction of a corpus of question-answer couples. That corpus brings together couples of a question and a answering passage where has been annotated the before-mentioned structure of the justification. On the corpus, we measure the justifications' conformation in terms of semantic variation and spatial extension. Then, I describe an evaluate a program for extracting and weighting the justifications located in the newspaper articles' passages brought by a question-answering processing chain. My program aims at preserving the system's ability to produce a structured justification, while making possible to integrate a large variety of heterogeneous linguistic processes of various nature, granularity level and reliability.

Abstract FR:

Ce mémoire se situe dans le domaine des systèmes de questions-réponses, ces systèmes qui, à partir d'une question en langage naturel posée par l'utilisateur recherche une réponse dans une collection de documents. Notre travail se fonde sur la notion de justification, que nous formalisons comme un graphe d'appariement entre les informations linguistiques extraites de la question et les éléments justificatifs correspondants de le passage réponse. Ce modèle fait intervenir trois types de phénomènes linguistiques : les variations paradigmatiques locales d'un terme (sémantiques, morphologiques, inférences), les liens syntagmatiques entre les constituants d'une phrase, et une composante de sémantique énonciative reliant des éléments distants (anaphores, coréférences, thématisation), dans un contexte multiphrase, aussi bien mono- que multi-documents. Dans ce travail, nous décrivons premièrement l'extraction semi-automatique d'un corpus de questions-réponses. Ce corpus regroupe des couples d'une question et d'un passage réponse, où sont annotées les structures de justification évoquées ci-avant. Nous mesurons sur ce corpus la conformation des justifications en termes de variation sémantique et d'étendue spatiale. Ensuite, nous décrivons et évaluons un programme extrayant et pondérant des justifications à partir de passages d'articles de journaux rapportés par une chaîne de traitements questions-réponses. Notre programme vise à conserver au système la capacité à produire une justification structurée, tout en rendant possible l'intégration d'une grande hétérogénéité de traitements linguistiques, de nature, de niveau de granularité et de fiabilité variés.