thesis

Apprentissage automatique de relations d'équivalence sémantique à partir du Web

Defense date:

Jan. 1, 2003

Edit

Institution:

Paris, ENST

Disciplines:

Directors:

Abstract EN:

This PhD thesis can be situated in the context of a question answering system, which is capable of automatically finding answers to factual questions on the Web. One way to improve the quality of these answers is to increase the recall rate of the system, by identifying the answers under multiple possible formulations(paraphrases). As the manual recording of paraphrases is a long and expensive task, the goal of this PhD thesis is to design and develop a mechanism that learns automatically and in a weakly supervised manner the possible paraphrases of an answer. Thanks to the redundance and the linguistic variety of the information it contains, the Web is considered to be a very interesting corpus. Assimilated to a gigantic bipartite graph represented, on the one hand, by formulations and, on the other hand, by argument couples, the Web turns out to be propitious to the application of Firth's hypothesis, according to which "you shall know a word (resp. A formulation, in our case) by the company (resp. Arguments) it keeps". Consequently, the Web is sampled using an iterative mechanism : formulations (potential paraphrases) are extracted by anchoring arguments and, inversely, new arguments are extracted by anchoring the acquired formulations. In order to make the learning process converge, an intermediary stage is necessary, which partitions the sampled data using a statistical classification method. The obtained results were empirically evaluated, which, more particularly, shows the value added by the learnt paraphrases of the question answering system

Abstract FR:

Cette thèse s'inscrit dans le contexte d'un système de questions-réponses, capable de trouver automatiquement sur le Web la réponse à des questions factuelles. L'une des manières d'améliorer la qualité des réponses fournies consiste à augmenter le taux de rappel du système et à identifier pour cela les réponses sous de multiples formulations possibles (paraphrases). Le recensement manuel de ces paraphrases étant un travail long et coûteux, l'objectif de cette thèse est de concevoir et développer un mécanisme d'apprentissage automatique et faiblement supervisé des paraphrases possibles d'une réponse. La méthode d'apprentisage présentée fait du Web son corpus privilégié, en particulier par la redondance et la variété linguistique des informations qu'il contient. Considéré comme un gigantesque graphe biparti représenté, d'une part, par des formulations et, d'autre part, par des couples d'arguments, le Web s'avère propice à l'application de la citation de Firth, selon laquelle le sens d'un terme (respectivement d'une formulation, dans notre cas) est lié aux termes (respectivement aux arguments) avec lesquels il cooccurre. Ainsi, par un mécanisme itératif, le Web est échantillonné : les formulations (paraphrases potentielles) sont extraites par ancrage des arguments, et inversement, de nouveaux arguments sont extraits par ancrage des formulations acquises. Afin de permettre à l'apprentissage de converger, une étape intermédiaire de classification statistique des données échantillonnées est nécessaire. Les résultats obtenus ont fait l'objet d'une évaluation empirique, montrant en particulier la valeur ajoutée des paraphrases apprises sur le système de questions-réponses