Traitement des nominalisations anaphoriques en indexation automatique
Institution:
Lyon 2Disciplines:
Directors:
Abstract EN:
This thesis proposes en indexation method for integral texts based on anaphoric noun phrases. The motivation is to take advantage from the wide context of an anaphora relation in order to build a rich descriptor ? and to get consequently a performant index. The main contribution here is the design of a complete method enabling the systematic reconstitution of all arguments of each anaphoric nominalization encountered in the text. A completely resolved noun phrase constitutes a rich descriptor that is then added to the index. The resolution a nominal anaphora makes use the results of other preliminarly activities. These consists in collecting the syntactic structures of the possible noun phrase corresponding to a nominalization and, identifying a set of the anaphoric noun phrase and the form of its precedent. The feasibility of the proposed has been demonstrated through an application to a real-life corpus.
Abstract FR:
Cette thèse propose une méthode d'indexation en texte intégral basée sur les syntagmes nominaux anaphoriques. Il s'agit d'exploiter tout le contexte discursif impliqué par une relation d'anaphore pour former un descripteur riche en information, et d'avoir ainsi un index performant. La contribution principale de ce travail consiste en la conception d'une méthode permettant de reconstituer systématiquement tous les arguments d'une nominalisation anaphorique présente dans le discours et d'avoir ainsi un descripteur complètement défini. Cette résolution des anaphores nominales repose toutefois sur un travail préliminaire permettant de recenser toutes les constructions syntaxiques possibles des syntagmes nominaux construits autour d'une nominalisation et d'identifier un ensemble des règles syntaxiques qui réagissent la correspondance entre la forme nominalisée anaphorique et la forme verbale pleine de l'antécédent. Une démonstration de la faisabilité de cette méthode a été réalisée à travers son application sur un corpus.