Construction de cartes pour l'exploration de corpus
Institution:
OrléansDisciplines:
Directors:
Abstract EN:
Pas de résumé disponible.
Abstract FR:
Cette thèse s'inscrit dans une problématique qui intéresse principalement deux domaines de recherche en Informatique: il s'agit du Traitement Automatique des Langues d'une part et de l'Apprentissage Automatique d'autre part. Notre objectif est d'extraire des termes autour d'un thème (matérialisé par la requête de l'utilisateur), en explicitant les liens qui les unissent. Il s'agit de générer des cartes de textes donnant une représentation partielle du contenu sémantique de larges corpus homogènes, centrées autour de requêtes posées par l'utilisateur. Plus particulièrement, une carte est composée - d'un ensemble de mots clés fournis par l'utilisateur (la requête), - des concepts fortement liés à cette requête, - des liens entre mots clés et concepts, exprimés au sein du corpus. Cette problématique a été vue comme une structuration de terminologie: une première phase extrait les concepts, une seconde étiquette les liens. Les algorithmes proposés reposent sur des méthodes statistiques utilisant la collocation et des indices linguistiques, pour mettre en évidence des corrélations entre unités lexicales. Les principaux points originaux de cette thèse résident dans - le mode de recherche des concepts fortement liés à la requête: il est basé sur une recherche de point fixe - l'étiquetage des relations par des labels verbaux, éventuellement enrichis d'une orientation et de prépositions. Les algorithmes proposés ont fait l'objet d'une implantation au sein d'un outil. Des résultats obtenus sur un panel de cinq corpus de langues, genres et thématiques divers sont présentés. Une campagne d'évaluation des résultats obtenus sur le livre Introduction au Langage C de Bernard Cassagne, par trois catégories d'experts, a permis de quantifier la qualité des éléments extraits.