Knowledge Tree

thesis

Une méthode pour le prétraitement des textes : dépendances entre traitements et leur intelligibilité

Defense date:

Jan. 1, 2008

Edit

Institution:

Paris 11

Disciplines:

Computer sciences

Authors:

Thomas Heitz

Directors:

Yves Kodratoff

Abstract EN:

This work deals with knowledge discovery in texts whose main applications are information retrieval using a search engine, communication filtering using an e-mail client and knowledge management using methods of knowledge engineering. We justify, define, illustrate and evaluate two new complementary extensions for text mining chains intended to save time and improve quality. These extensions apply to all the chain links and take into account the global chain and no more only one link in particular since the field is now sufficiently mature. On the one hand, one can improve the text mining chain while modeling locally and globally the information exchanges which take place. The objective is to optimize the dependencies between the various treatments in order to transmit the results between treatments among which those intractable but not those irretrievable. To reach it, we introduce recursive and mutually recursive dependent treatments. On the other hand, one can improve the text mining chain while taking into account that the majority of data are raw, without initial annotations. The objective is thus to make more controllable the training algorithms at the time of the training. To reach it, we introduce the user guided learning which consists in combining the stages of annotation and training by making coevolve the annotations, the learned model and knowledge from the user.

Abstract FR:

Notre travail se concentre sur les prétraitements dans la chaîne de traitements des textes. C'est-à-dire, lorsque les textes sont bruts, sans annotations initiales telles le type de donnée ou métadonnée, les fins de phrases, ou l'appartenance d'un groupe de mots à une locution. Nous précisons que les métadonnées sont les données qui décrivent les données principales telles l'auteur, le lieu et la date d'un texte. Si ce problème nous intéresse c'est qu'il est fondamental puisque tous les traitements ultérieurs sur le texte nécessitent des prétraitements et dépendent de ceux-ci pour leur qualité. Le fait qu'ils soient si souvent passés sous silence dans les publications alors qu'ils prennent officieusement la moitié voir les trois-quarts du temps total des traitements appliqués aux textes nous a conduit à réfléchir sérieusement sur leurs possibles améliorations. Un premier axe de recherche de ce travail est basé sur les dépendances entre traitements lors de ces prétraitements. Ces dépendances peuvent être récursives ce qui nous amène aussi à aborder des traitements ultérieurs pour illustrer les allers-retours entre traitements. Un second axe de recherche concerne l'intelligibilité des prétraitements. Par exemple, l'utilisateur qui applique un traitement peut-il comprendre pourquoi ce traitement ne fonctionne pas sur un type de texte alors qu'il fonctionnait sur un autre type ?