thesis

Extraction et formalisation de la sémantique des liens hypertextes dans des documents culturels, scientifiques et techniques

Defense date:

Jan. 1, 2007

Edit

Institution:

Tours

Disciplines:

Abstract EN:

L'utilisation des liens hypertextes sur internet rend les sites plus attractifs et plus faciles à lire et permet l'enrichissement des sites par des informations provenant d'autres sites. Cependant, ces mêmes liens entraînent des difficultés pour les lecteurs et les moteurs de recherche. Les liens hypertextes sont porteurs d'informations sémantiques qui, si elles étaient complètement formalisées, seraient exploitables par des programmes pour améliorer la navigation et la recherche d'information, et prendraient leur place dans l'émergence du web sémantique. Dans cette thèse, nous proposons une méthodologie originale d'extraction formelle de la sémantique des liens hypertextes. La méthode proposée a été testée sur les liens d'un corpus. Le formalisme RDF est utilisé pour représenter la sémantique des liens. Une ontologie pour les liens spécifiques au domaine des biographies de personnages célèbres a été constituée à partir de la sémantique extraite des liens. Celle-ci a été représentée en RDFS. Des outils d'apprentissage supervisé et de caractérisation des pages web par des mots clés sont utilisés pour aider à l'extraction formelle de la sémantique.

Abstract FR:

The use of hypertext links on the web makes sites more attractive and easier to read and allows enrichment of sites by information coming from other sites. However, this links produce some difficulties for readers and search engines. The hypertext links are carrying semantic information which, if it were completely formalized, would be exploitable by programs to improve navigation and research of information, and would take its place in the emergence of semantic web. In this thesis, we propose an original methodology for the formal semantic extraction of hypertext links. The suggested method has been tested on the links of a corpus. The formalism RDF has been used to represent the link semantics. Ontology for the links specific to the field of biographies of famous people was made up starting from the link semantics extracted and then represented in RDFS. Some tools of supervised learning and of web pages characterization by keywords has been used to help with the formal extraction of semantics.