thesis

Extraction automatique de connaissances à partir de corpus de textes

Defense date:

Jan. 1, 2000

Edit

Institution:

Paris 7

Disciplines:

Authors:

Abstract EN:

Pas de résumé disponible.

Abstract FR:

L'extraction automatique de connaissances réalisée dans cette thèse consiste à repérer certains événements présents dans un texte. Ces événements sont constitués par un verbe ou un substantif représentant l'action et des entités factuelles représentant les circonstances de cette action (acteur et date de l'action par exemple). Indépendamment de la conception proprement dite du système d'extraction, plusieurs réflexions préalables ont été menées sur les applications de la recherche documentaire et de l'extraction automatique de connaissances, notamment sur les applications à la recherche littéraire. L'étude menée a entraîné la recherche des procédures d'analyse existantes et fait ressortir les difficultés propres à chaque langue pour le Traitement Automatique du Langage Naturel. La méthode d'extraction des connaissances utilisée est fondée sur une analyse syntaxique du texte puis sur un repérage des mots ou des catégories grammaticales introduisant systématiquement le même type d'entités factuelles. Le système comporte quatre étages. Après avoir repéré et étiqueté les entités factuelles selon leur type (noms de personnes, noms de lieux, noms de sociétés, dates ou mesures), puis les avoir comparées entre elles, une réflexion a été menée sur la manière dont les liaisons entre ces entités factuelles et leur liaison à l'action pourraient être repérées. Nous avons alors abouti, au quatrième étage du système, à la transformation de toutes les informations obtenues précédemment en une base de données. Les problèmes relatifs à la réalisation des deux derniers étages du système qui permettraient de réaliser les liaisons et donc de structurer les connaissances sous forme de base de données ont été mis en évidence. Cette recherche et les difficultés rencontrées ont révélé que le travail effectué débouchait sur d'autres applications.