thesis

Compression automatique ou semi-automatique de textes par élagage des constituants effaçables : une approche interactive et indépendante des corpus

Defense date:

Jan. 1, 2007

Edit

Institution:

Montpellier 2

Disciplines:

Directors:

Abstract EN:

Pas de résumé disponible.

Abstract FR:

Le travail s'inscrit dans le domaine du traitement automatique du langage naturel et traite plus spécifiquement d'une application de ce dernier au résumé automatique de textes. Si le résumé automatique fait l'objet depuis de nombreuses années de recherches plurithématiques et de campagnes d'évaluation, la variété des types de résumé est très grande et correspond à des besoins fort différents. L'originalité de la thèse consiste à s'attaquer à une variété fort peu explorée, la compression de textes, dont l'utilité est évidente (pour les scientifiques, les journalistes, les auteurs qui doivent réduire leurs articles ouécrits à un nombre donné de mots). A l'intérieur de cette variété, les rares pistes suivies dans l'état-de-l'art proposent majoritairement des techniques supervisées ou des méthodes fondées sur des modèles indépendants de la langue. Une originalité complémentaire du travail consiste à s'appuyer sur la représentation syntaxique des phrases du textes sous forme arborescente et de proposer un système incrémental d'élagage de l'arbre des dépendances, tout en préservant la cohérence syntaxique (arbre valide) et la conservation du contenu informationnel important. Sur le plan théorique, le travail s'appuie sur la théorie du gouvernement de Chomsky, reprise également dans des modèles tels que HPSG, et plus particulièrement sur la représentation formelle de la théorie X-Barre. Mais au-delà de cet appui, la thèse présente un fondement théorique important pour un modèle computationnel compatible avec la compression syntaxique de phrases. Intégré dans l'environnement de développement SYGMART de Jacques Chauché, et s'adossant fortement aux sorties de son analyseur syntaxique du français SYGFRAN, le travail a donné lieu a un logiciel opérationnel, nommé COLIN qui propose deux modalités : une compression automatique, et une aide au résumé sous forme semi-automatique, dirigée par l'interaction avec l'utilisateur. Le logiciel a été évalué grâce à un protocole complexe par 39 utilisateurs bénévoles. Les variables testées sont le genre du texte, le taux de compression, la qualité de la compression et le temps de compression. Les résultats de l'expérience montrent que 1) la notion de résumé de référence qui sert aux évaluations classiques est discutable, car les résumés "manuels" ont été appréciés de manière mitigée par les juges humains 2) les compressions semi-automatiques ont été fortement appréciées 3) les compressions totalement automatiques ont également obtenu de bons scores de satisfaction. À un taux de compression supérieur au tiers (plus de 33% du texte élagué) tous genres confondus, COLIN fournit un support appréciable en tant qu'aide à la compression de textes, ne dépend d'aucun corpus d'apprentissage, et présente un environnement interface convivial