Une plate-forme informatique de l'Exploration Contextuelle : cmodélisation, architecture et réalisation (ContextO) : application au filtrage sémantique de textes
Institution:
Paris 4Disciplines:
Directors:
Abstract EN:
This work comes within the scope of the FilText project, carried out by the LaLICC team, directed to the construction of automatic information filtering systems, by means of semantic criteria, which give to a reader the possibility of defining a filtering profile according to its objectives. This thesis describes our work of modelling and implementing the software platform ContextO. We propose a representation of the textual structure and a specification language, LangTex, to manipulate this structure and to express linguistic knowledge. The first part of the thesis presents the foundations of the FilText project and the method of contextual exploration which constitutes its theoretical justification. The second part shows ContextO's architecture and describes its components. The third part introduces LangTex, a formal language structured in two layers: CBase, to ensure the basic features to navigate in the textual structure, and CRegEC, to allow the formulation of contextual exploration rules. This modular approach facilitates the extensibility of each layer as well as the possibility of adding new layers specialized in a category of appropriate treatments for specific tasks.
Abstract FR:
Ce travail s'inscrit dans le cadre du projet FilText, de l'équipe LaLICC, orienté vers la construction de systèmes automatiques de filtrage d'information, à l'aide de critères sémantiques, qui donnent à un lecteur la possibilité de définir un profil de filtrage en fonction de ses objectifs. Cette thèse décrit notre travail de modélisation et de réalisation de la plate-forme informatique ContextO. Nous proposons une représentation de la structure textuelle et un langage de spécification, LangTex, pour manipuler cette structure et pour exprimer des connaissances linguistiques. La première partie de la thèse expose les fondements du projet FilText et la méthode d'exploration contextuelle qui constitue sa justification théorique. La deuxième partie est consacrée à la présentation de l'architecture de ContextO et à la description de ses composants. La troisième partie présente LangTex, un langage formel structuré en deux couches : CBase, assurant les fonctionnalités de base pour naviguer dans la structure textuelle, et CRegEC, pour permettre la formulation de règles d'exploration contextuelle. Cette approche modulaire facilite l'extensibilité de chaque couche ainsi que la possibilité d'ajouter des nouvelles couches spécialisées dans une catégorie de traitements propres à des tâches spécifiques.