thesis

Extraction de données et apprentissage automatique pour les sites web adaptatifs

Defense date:

Jan. 1, 2006

Edit

Institution:

Saint-Etienne, EMSE

Disciplines:

Authors:

Abstract EN:

Our work is about Knowledge Discovery and Data Mining. We focus on web data including server log files. In order to know automatically how to adapt a web site, we decide to learn grammatical models about users behaviors. We show in this work how the web data are difficult to acquire in order to use them in a grammatical inference process. We try to eliminate the almost totality of the noise which is present in these data. We also show how grammatical inference can learn good models by generalizing enough its input data. We explain how difficult the evaluation of the quality of learned models is, and we introduce an euclidean measure between languages models represented by automata. We prove that this measure is a true distance in a mathematical sense. Finally, we propose our experimentation results: we show that our method (from the prepossessing of the data to the evaluation of learned models) gives better success rates for the new page prediction task which is very common in web usage mining.

Abstract FR:

Les travaux pr´esent´es se situent dans le cadre d’extraction de connaissance `a partir de donn´ees. Un contexte d’´etude int´eressant et d’actualit´e a ´et´e choisi : les sites web adaptatifs. Pour mettre en oeuvre, de mani`ere la plus automatique possible, de tels sites adapt´es aux utilisateurs, nous d´ecidons d’apprendre des mod`eles d’utilisateurs ou, plus pr´ecis´ement, de leurs types de navigations sur un site web donn´e. Ces mod`eles sont appris par inf´erence grammaticale. Les donn´ees disponibles li´ees au contexte du Web sont particuli`erement difficiles `a r´ecup´erer proprement. Nous choisissons de nous focaliser sur les fichiers de logs serveur en supprimant le bruit inh´erent `a ces derniers. L’inf´erence grammaticale peut g´en´eraliser ses donn´ees d’entr´ee pour obtenir de bons mod`eles de langages. Nous travaillons sur les mesures de similarit´e entre langages pour l’´evaluation de la qualit´e des mod`eles appris. L’introduction d’une mesure euclidienne entre mod`eles de langages repr´esent´es sous forme d’automates permet de pallier les probl`emes des m´etriques existantes. Des r´esultats th´eoriques montrent que cette mesure a les propri´et´es d’une vraie distance. Enfin, nous pr´esentons divers r´esultats d’exp´erimentation sur des donn´ees du web que nous pr´e-traitons avant d’apprendre grˆace `a elles des mod`eles utilisateurs issus de l’inf´erence grammaticale stochastique. Les r´esultats obtenus sont sensiblement meilleurs que ceux pr´esents dans l’´etat de l’art, notamment sur les tˆaches de pr´ediction de nouvelle page dans une navigation utilisateur.