thesis

Critères de pertinence linguistiques et statistiques pour l'appariement au sein du couple question réponse

Defense date:

Jan. 1, 2004

Edit

Institution:

Paris 10

Disciplines:

Authors:

Directors:

Abstract EN:

Marketed Question Answering (QA) systems generally use FAQ databases. They are often restricted to a few domains and rather expensive to create and maintain. Therefore, they are not satisfactory. That is the reason why prototypical open-domain QA systems have appeared. They use Information Retrieval (IR) techniques. But linguistic and statistical QA-specific criteria should improve QA pairing. We propose a multidimensional semantically-based question categorisation (a question can belong to many question categories), which takes shades of meaning into account. The statistical track consists in selecting an answer chunk by adapting to the QA task the term, expansion and derivative weights used by the probabilistic model in IR. This can be done by using automatic learning and relevance feedback.

Abstract FR:

Les systèmes de question réponse (QR) commercialisés utilisent généralement des bases de FAQ. Coûteux à mettre en œuvre et à maintenir, restreints à quelques domaines, souvent insatisfaits, ils laissent place à des prototypes participant à des campagnes d'évaluation, devant répondre à des questions de culture générale. Ces systèmes utilisent des techniques issues de la recherche d'information (RI). Des critères linguistiques et statistiques tenant compte des spécificités de la tâche QR peuvent améliorer l'appariement question réponse. Nous proposons une catégorisation sémantique des questions multidimensionnelle (une question peut renvoyer à plusieurs types de réponses) tenant compte de nuances. Une autre piste consiste à sélectionner une bribe de réponse candidate en adaptant à la tâche QR, par apprentissage, les pondérations des termes utilisés par le modèle probabiliste en RI. A ces termes s'ajoutent expansions sémantiques et dérivés morphologiques choisis par retour de pertinence.