Knowledge Tree

thesis

Extraction de données à partir de pages Web pour la mesure du comportement des internautes

Defense date:

Jan. 1, 2006

Edit

Institution:

Paris 5

Disciplines:

Computer sciences

Authors:

Nikolay Georgiev

Directors:

Jean-Luc Minel

Jean-Marc Labat

Abstract EN:

While the information available on the internet increases exponentially, it is still not completely accessible for the current technologies, because of its text nature. The question “How to access the information stored in HTML/XHTML format?” does not have a precise answer yet. In this work we are interested in the problem of web pages identification and data extraction for the need of the internet measurement science, where the data volumes are in the order of tenths of millions pages to analyse. The innovation introduced by our approach resides in the extraction methodology which is based on the recognition of sub structures called “local structures” and on the concept of “information couple”, which consists of the idea to associate the extracted data with relevant visual markers. Our research has also been validated throuqh the development of a robust and easy to use data extraction tool.

Abstract FR:

Si l’information disponible sur Internet augmente de manière exponentielle, elle reste aujourd’hui largement inexploitable par les moyens informatiques en raison de sa nature textuelle. La problématique « Comment accéder à l’information disponible sous forme de pages HTML/XHTML ? » garde donc toute sa pertinence. Dans ce travail nous nous intéressons au problème de l’identification des pages web et de l’extraction de données pertinentes, dans le but d’évaluer finement le comportement des internautes à partir de panels de centaines de milliers de personnes, ce qui représente des dizaines de millions de pages visitées à analyser. La nouveauté apportée par notre approche réside dans la méthodologie d’extraction qui est basée sur la reconnaissance progressive de sous-structures nommées « structures locales » et sur le concept de « couple d’information ». Notre recherche a pu être validée par le développement d’un outil robuste, fiable et facile d’utilisation.