thesis

Web usage mining : contributions to intersites logs preprocessing and sequential pattern extraction with low support

Defense date:

Jan. 1, 2005

Edit

Institution:

Nice

Disciplines:

Authors:

Directors:

Abstract EN:

The Web use mining (WUM) is a rather research field and it corresponds to the process of knowledge discovery from databases (KDD) applied to the Web usage data. It comprises three main stages : the pre-processing of raw data, the discovery of schemas and the analysis (or interpretation) of results. The quantity of the web usage data to be analysed and its low quality (in particular the absence of structure) are the principal problems in WUM. When applied to these data, the classic algorithms of data mining, generally, give disappointing results in terms of behaviours of the Web sites users (E. G. Obvious sequential patterns, stripped of interest). In this thesis, we bring two significant contributions for a WUM process, both implemented in our toolbox, the Axislogminer. First, we propose a complete methodology for pre-processing the Web logs whose originality consists in its intersites aspect. We propose in our methodology four distinct steps : the data fusion, data cleaning, data structuration and data summarization. Our second contribution aims at discovering from a large pre-processed log file the minority behaviours corresponding to the sequential patterns with low support. For that, we propose a general methodology aiming at dividing the pre-processed log file into a series of sub-logs. Based on this methodology, we designed three approaches for extracting sequential patterns with low support (the sequential, iterative and hierarchical approaches). These approaches we implemented in hybrid concrete methods using algorithms of clustering and sequential pattern mining.

Abstract FR:

Le Web Usage Mining (WUM), domaine de recherche assez récent, correspond au processus d’extraction des connaissances à partir des données (ECD) appliquées aux données d’usage sur le Web. Il comporte trois étapes principales : le prétraitement des données, la découverte des schémas et l’analyse des résultats. La quantité des données d’usage à analyser ainsi que leur faible qualité (en particulier l’absence de structuration) sont les principaux problèmes en WUM. Les algorithmes classiques de fouille de données appliquées sur ces données donnent généralement des résultats décevants en termes de pratiques des internautes. Dans cette thèse, nous apportons deux contributions importantes pour un processus WUM, implémentées dans notre boîte à outils Axislogminer. D’abord, nous proposons une méthodologie générale de prétraitement des logs Web dont l’originalité consiste dans le fait qu’elle prend en compte l’aspect multi-sites du WUM. Nous proposons dans notre méthodologie quatre étapes distinctes : la fusion des fichiers logs, le nettoyage, la structuration et l’agrégation des données. Notre deuxième contribution vise à la découverte à partir d’un fichier log prétraité de grande taille, des comportements minoritaires correspondant à des motifs séquentiels de très faible support. Pour cela, nous proposons une méthodologie générale visant à diviser le fichier log prétraité en sous-logs, se déclinant selon trois approches d’extraction de motifs séquentiels au support faible (séquentielle, itérative et hiérarchique). Celles-ci ont été implémentées dans des méthodes concrètes hybrides mettant en jeu des algorithmes de classification et d’extraction de motifs séquentiels.