Modeles dynamiques d'apprentissage numerique pour l'acces a l'information textuelle
Institution:
Paris 6Disciplines:
Directors:
Abstract EN:
Pas de résumé disponible.
Abstract FR:
Le nombre d'informations textuelles accessibles sous forme electronique augmente tres rapidement, ce qui entraine une nouvelle besoin d'outils capables d'exploiter ces informations. Dans ce travail nous explorons une voie alternative du traitement de l'information textuelle, par l'application de modeles dynamiques d'apprentissage numerique. Ces modeles nos permettent d'aborder sous une meme formalisme nombreuses taches d'analyse textuel. Nous introduisons d'abord les differentes disciplines de traitement d'information textuelle existantes, et en particuliere la recherche de l'information et l'extraction de l'information. Nous developpons ensuite les differentes techniques de representation de textes existantes, et nous proposons une nouvelle technique plus adapte a un approche dynamique. Nous introduisons ensuite la theorie de l'apprentissage statistique, les modeles temporels d'apprentissage et, en particulier les modeles de markov caches et les modeles a base de reseaux de neurones. Nous abordons ensuite l'application de ces modeles a differentes taches de l'acces a l'information textuelle : categorisation, filtrage et routage de documents, surlignage, et extraction d'informations de surface. Un modele hierarchique est aussi developpe, ou le modele vectoriel classique de ri est utilise a des niveaux structurel successifs des documents de facon a localiser l'information pertinente prealablement a son traitement pour l'extraction d'information. L'evaluation de nos modeles est faite sur deux taches distinctes : le routage et surlignage de courrier electronique, a partir du corpus 20-newgroups, et l'extraction d'informations de surface, a partir du corpus muc-6.