thesis

Apport de la combinaison des connaissances structuro-linguistiques et de la fouille de textes pour la catégorisation de documents

Defense date:

Jan. 1, 2009

Edit

Institution:

Paris 8

Disciplines:

Authors:

Directors:

Abstract EN:

This thesis lies in the difficult context of linguistics and computer science. More precisely, we aim to demonstrate the value of the simultaneous consideration of the document structure and linguistic knowledge for the classification of documents according to their style. For this, we defined new descriptors, which, combined with linguistic descriptors exploiting hierarchy of text, are relevant to characterize the types of documents. Then, we proposed a classification method based on non-presence of patterns in the documents. One of originalities of our work is to combine linguistic and machine learning methods with techniques search for local patterns. Assumptions giving priority to descriptors related to the structure of documents, with a relativization of the lexicon are considered. These assumptions exploit an hierarchy of textual units, where the introduction of a strategy for prioritization of a set of hybrid multi-scale descriptors has been defined. This hierarchy represents the logical structure of the document based on the principle that different windows of observation correspond to different types of information. These are interconnected through the concept of inheritance of context in order to preserve the global coherence of the document. On the other hand, assumptions related to the task of categorization have emerged, such as exploitation of the total or partial absence of patterns under certain constraints, which can be used to build new analogies for the categorization of documents. Then, by analyzing by evidence pattrens with low or zero frequencies, a new approach of categorization by exclusion-inclusion was proposed by introducing a new concept such as exclusive patterns

Abstract FR:

Ce travail de thèse se situe dans le difficile contexte de la linguistique et de l'informatique. Plus précisément, il s'agit de montrer l'intérêt de la prise en compte simultanée de la structure du document et des connaissances linguistiques pour la classification de documents suivant leur style. Pour cela, nous avons défini de nouveaux descripteurs, qui, combinés avec des descripteurs linguistiques exploitant la hiérarchie textuelle, sont pertinents pour caractériser des types de documents. Puis, nous avons proposée une méthode de classification fondée sur l'absence des motifs dans les documents. Une des originalités de notre travail est d'associer des méthodes linguistiques et d'apprentissage automatique à des techniques de recherche de motifs locaux. Des hypothèses donnant la priorité aux indices liées à la structure des documents, avec une relativisation du lexique sont prises en considération, d'où l'introduction d'une stratégie de hiérarchisation d'un ensemble de descripteurs hybrides multi-échelles a été définie. Cette hiérarchisation représente la structure logique du document fondée sur le principe que différentes fenêtres d'observation correspondent à des différents types d'information. Ces derniers sont reliés entre eux par le biais de la notion de l'héritage du contexte afin de préserver la cohérence globale du document. D'autre part, des hypothèses liées à la tâche de catégorisation sont émergées telle que l'exploitation de l'absence totale ou partielle de motifs sous certaines contraintes, qui peut servir à construire de nouvelles analogies pour la catégorisation des documents. Alors, en analysant par évidence les motifs à fréquences faibles ou nulles, une nouvelle approche de catégorisation par exclusion-inclusion a été proposée en introduisant une nouvelle notion telle que les motifs exclusifs