
Exploitation du web sémantique pour la veille technologique

Jan. 1, 2006







Abstract EN:

The rise of Internet supported the appearance of numerous information available on line, which is potentially useful for the technological and scientific watch of a company. Various techniques of information retrieval on the Web are proposed in order to build tools enabling to refine the search in order to get relevant results. However, in the context of the current Web, in spite of large progresses in the field of information retrieval, these tools showed their limits in terms of precision and recall. The application of Semantic Web technologies, in particular of ontologies, thus seems to us to be useful to improve the performance of technological and scientific watch task on the Web. This thesis was prepared in the framework of a cooperation between the CSTB (Scientific and Technical Centre for Building) and the ACACIA Team at INRIA Sophia Antipolis. The main objective of this thesis is to use the Semantic Web technologies to develop a system for technology monitoring (OntoWatch). This system is guided by ontologies, in order to collect, capture, filter, classify and structure the Web content coming from several information sources in a scenario of assistance to the technological et scientific watch. In a first part, we model the CSTB’s technological watch process relying on the generic model of monitoring proposed by Lesca. We identify the potential contributions of ontology in the various stages of the process then we build an ontology dedicated to the technological watch system. This ontology integrates a part of an existing ontology and vocabularies offered in thesaurus of the CSTB domain. After that, we propose several algorithms using an ontology to improve document search on the Web and to generate automatically semantic annotations (in RDF format) for these documents. These annotations feed the annotation bases of the system, bases on which the semantic search of information relies. Finally, we propose a multiagents architecture for implementation of the OntoWatch system. We focus in particular on the design of the sub-societies of agents dedicated to search and automatic annotation of documents on the Web.

Abstract FR:

L’essor d’Internet et du Web a favorisé la mise en ligne de nombreuses informations disponibles, potentiellement utiles pour la veille technologique et scientifique d’une entreprise. Différentes techniques de recherche d’information sur le Web ont été proposées afin de construire des outils permettant d’affiner la recherche pour obtenir des résultats pertinents. Cependant, dans le contexte du Web actuel, malgré de grandes avancées dans le champ de la recherche d’information, ces outils ont montré leurs limites en termes de précision et de rappel. L’application des technologies du Web Sémantique, en particulier des ontologies, semble donc intéressante pour améliorer les performances de la tâche de veille technologique et scientifique sur le Web. Les travaux de cette thèse se sont déroulés dans le cadre d’une coopération entre le Centre Scientifique et Technique du Bâtiment (CSTB) et l’équipe ACACIA de l’INRIA Sophia Antipolis. L’objectif principal est d’exploiter les technologies du Web Sémantique pour développer un système de veille (OntoWatch), guidé par des ontologies, pour collecter, capturer, filtrer, classer et structurer le contenu du Web en provenance de plusieurs sources d’information dans un scénario d’aide à la veille technologique et scientifique. Dans une première partie, nous modélisons le processus de veille technologique et scientifique du CSTB reposant sur le modèle général de veille proposé par Lesca. Puis nous identifions les apports potentiels de l’ontologie dans les différentes étapes et nous construisons une ontologie dédiée au système de veille. Cette ontologie intègre une partie d’une ontologie existante et des vocabulaires offerts dans des thésaurus du domaine du CSTB. Ensuite, nous proposons des algorithmes utilisant une ontologie pour améliorer la recherche des documents sur le Web, puis générer automatiquement les annotations sémantiques (représentées dans le langage RDF) sur ces documents. Ces annotations alimentent dans le système les bases d’annotations, sur lesquelles repose la recherche sémantique d’informations. Enfin, nous proposons une architecture multi-agents pour l’implémentation du système OntoWatch. Nous nous focalisons en particulier sur la conception des sous-sociétés d’agents dédiées à la recherche et à l’annotation automatique des documents sur le Web.