Génération d'adaptateurs web intelligents à l'aide de techniques de fouilles de texte
Institution:
Versailles-St Quentin en YvelinesDisciplines:
Directors:
Abstract EN:
This thesis defines a system framework of semantically integrating Web information, called SEWISE. It can integrate text information from various Web sources belonging to an application domain into common domain-specific concept ontology. In SEWISE, Web wrappers are built around different Web sites to automatically extract interesting information from. Text mining technologies are then used to discover the semantics Web documents talk about. SEWISE can ease topic-oriented information researches over the Web. Three problems related to the document categorization are studied. Firstly, we investigate the approaches to feature selection and proposed two approaches CBA and IBA to select features. To estimate statistic term associations and integrate them within document similarity model, a mathematical model is proposed. Finally, the category score calculation algorithms used by k-NN classifiers are studied. Two weighted algorithms CBW and IBW to calculate category score are proposed
Abstract FR:
Cette thèse définit un système d'informations Web d'intégration sémantique, appelé SEWISE qui peut intégrer des informations textuelles provenant de différentes sources Web. Dans SEWISE les adaptateurs Web sont construits autour de différents sites Web pour extraire automatiquement des informations intéressantes. Des technologies de fouille de texte sont alors employées pour découvrir des sémantiques abordées dans les documents. SEWISE peut assister à la recherche des informations sur le Web. Trois problèmes liés à la catégorisation de document sont étudiés. Premièrement, nous étudions les approches de sélection de termes et nous proposons deux approches CBA et IBA pour choisir ces termes. Puis, pour estimer des associations statistiques entre termes, un modèle mathématique est proposé. Finalement, les algorithmes de calculs de scores de catégories employées par des classificateurs k-NN sont étudiés. Deux algorithmes pondérés CBW et IBW pour calculer des scores de catégories sont proposés.