Contributions à l’amélioration de la qualité de la fouillede l’usage Web
Institution:
Paris 8Disciplines:
Directors:
Abstract EN:
Our thesis tackles the analysis of human-machine interaction based on usage traces. Our research deals with human-machine interaction through the case of Web Usage Interaction Mining. We provide contributions focused on the quality and relevance of three critical tasks, i.e., web usage data cleaning and structuring in addition to usage pattern discovery. Three new approaches related to these tasks are introduced, i.e., web usage data cleaning based on the log structure, clickstream centered structuring and usage pattern-based optimization through semi-supervised classification. The experimental results of the proposed methods, compared to those identified within the related literature, demonstrate significant improvements in terms of relevance balanced by workability and cost constraints.First, our cleaning approach, based on the Log structure, and those identified within in the literature, based on the logging content, were tested on a panel of log files to demonstrate the relevance of our method in terms of identifying end-user clicks from their underlying user-agent hits (noises). In addition, we proposed a structuring approach clickstream-centered, that deals with the limitation of the current agent-centered approaches. The comparative experimentation, we performed on several Log files, demonstrates the relevance of our method and its capacity to overcome the limits of the compared ones in terms of identification and construction of relevant single user sessions despite the constraints related to sequential logging, multiple hosting, dynamic web, and the lack of tracking information. Finally, the preliminary outcomes of our symbiotic optimization approach, namely the optimization of several dimensions at the same time, i.e., traffic flow, Websites navigation paths and structures; tackles the issue of symbiotic optimization as a problem of classification. The target is to predict and control the optimization in order to avoid conflicts and/or contradictory optimization (parasitic). In this regard, we illustrate the limits of an optimization performed on distinct dimensions. Then, we introduced a semi-supervised classification approach for an optimization that handles several dimensions at a time (symbiotic). The experimentation on a logging sample of our university website demonstrates the capacity of our method to provide useful usage patterns for symbiotic optimization prediction, filtering and control. Overall, the particular added value in terms of relevance balanced by workability and costs constraints, provided by each of our contributions, consists of relevance improvement of inter-referenced critical tasks, where the upstream relevance of a task references that downstream, leading to more relevant analysis, interpretation and reliable usage patterns.
Abstract FR:
Cette thèse présente nos travaux sur la qualité de trois tâches critiques de la fouille des données de l’Usage Web, i.e., le nettoyage, la structuration et la découverte de motifs d’usage. A cet égard, nos contributions analysent les limites des approches actuelles en termes de qualité, et proposent trois nouvelles méthodes d’une meilleure pertinence. En effet, notre recherche et nos contributions abordent l’analyse de l’interaction Homme-Machine sur la base des traces d’utilisation, à travers le cas de l’interaction avec le Web et les techniques de la fouille des données de l’utilisation du Web (Fouille de l’Usage du Web).La première contribution présente une approche de nettoyage centrée sur la structure des données de journalisation au lieu de celles, actuellement, centrées sur le contenu de la journalisation. Cette approche est déclinée en deux variantes, i.e., une méthode heuristique et une autre basée sur les techniques de partitionnement génétique. La deuxième contribution présente une approche de structuration des données de journalisation centrée sur le flux de clics des agents au lieu de celles existantes centrées sur les attributs des agents. Notre troisième contribution propose une approche d’apprentissage semi-supervisé qui permet de découvrir des motifs d’usage pour optimiser, à la fois, plusieurs dimensions (optimisation symbiotique) de l’usage du Web au lieu d’une optimisation par dimension qui peut s’avérer conflictuelle et/ou contradictoire (optimisation parasitique).Les résultats expérimentaux des méthodes proposées, comparés à ceux des méthodes actuelles, démontrent des améliorations significatives en termes de pertinence rapportée aux contraintes d’applicabilité et de coût. Le manuscrit présentant le contexte et les contributions de notre recherche est composé de six (06) chapitres.