Des ressources aux traitements linguistiques : le rôle d’une architecture linguistique
Institution:
Paris 13Disciplines:
Directors:
Abstract EN:
Establishing an Environment to Manage Linguistic Resources for a Text Analysis Platform Systems integrating natural language processing often use lexicons and grammars, sometimes indirectly corpora. Because of the quantity and the complexity of the information in these linguistic resources, they are likely to become a source of inconsistency. In this thesis we explore how to improve the management of linguistic resources for an industrial search engine in nineteen languages that performs an elaborate textual analysis. We propose a method to formalize the linguistic architecture of the linguistic processing and its resources. This formalization shows how the knowledge contained in the resources is exploited and gives us the possibility to build management tools compliant with the system‘s architecture. The environment implemented in this way focuses on updating and acquiring the linguistic resources, while their exploitation is defined by the industrial constraints. Keywords: linguistic architecture, linguistic resource, linguistic resource management, NLP system, NLP tool, natural language processing.
Abstract FR:
Mise en place d’un environnement de gestion de ressources linguistiques pour une plate-forme d’analyse textuelle. Les systèmes intégrant des traitements venant du traitement automatique des langues reposent souvent sur des lexiques et des grammaires, parfois indirectement sur des corpus. A cause de la quantité et de la complexité des informations qu‘elles contiennent, ces ressources linguistiques deviennent facilement une source d‘incohérence. Dans cette thèse, nous explorons les moyens d‘améliorer la gestion des nombreuses ressources linguistiques d‘un moteur de recherche industriel en dix-neuf langues qui fait appel à une analyse textuelle élaborée. Nous proposons une méthode pour formaliser l‘architecture linguistique des traitements linguistiques et des ressources utilisées par ceux-ci. Cette formalisation explicite la façon dont les connaissances contenues dans les ressources sont exploitées. Grâce à elle, nous pouvons construire des outils de gestion qui respectent l‘architecture du système. L'environnement ainsi mis en place se concentre sur la mise à jour et l‘acquisition des ressources linguistiques, leur exploitation étant figée par des contraintes industrielles.