thesis

Spam filtering : optimization approaches to content-based filtering

Defense date:

Jan. 1, 2009

Edit

Disciplines:

Authors:

Abstract EN:

Le filtrage du spam est un problème dont le monde universitaire s'est emparé au début des années 2000. Aujourd'hui envisagé sous l'angle de la classification supervisée, le filtrage du spam pose toutefois des problèmes atypiques dans le monde de l'apprentissage automatique : classification compétitive (le filtre doit prédire la classe d'un message en sachant que celui-ci a pu être manipulé dans le but de leurrer toute tentative de filtrage), faux-positif (messages légitimes incorrectement rejetés), ou encore besoin d'automatisation complète dans un contexte en ligne, où un flux de messages imprévisibles est dirigé vers le filtre. L'objectif de cette thèse consiste à répondre à ces enjeux en apportant une approche orientée optimisation au domaine des filtres anti-spam. En considérant un classificateur comme une structure à optimiser, nous montrons qu'il est possible de formuler le problème de l'apprentissage d'un filtre comme un problème d'optimisation, sur lequel nous appliquons une méthode méta-heuristique nous permettant d'induire des filtres plus efficaces et autonomes. Notre travail nous a également conduit à explorer des paradigmes alternatifs pour le filtrage du spam (analyse par réseaux sociaux, théorie des jeux) et leur articulation dans un système de filtrage unifié. Enfin, nous proposons un nouvel outil, le package spamtools, permettant l'implémentation rapide et efficace de filtre anti-spam expérimentaux, et leur interfaçage avec les systèmes d'évaluation standardisés tels que l'outil TREC.

Abstract FR:

Spam filtering is a problem which have drawn the attention of the academic world in the early 2000s. While it is mostly viewed as a supervised classification problem, spam filtering brings issues which are not well addressed by a machine learning approach : adversarial classification, or the need for a filter to include the existence of an aware adversary in its classification process, cost-sensitive classification, and the need to minimize human assistance in the learning process, especially in an online context. The purpose of this thesis is to address these issues by bringing an optimization approach to the spam filtering problem. Viewing classifiers as structures to optimize, we formulate the learning processus as an optimization problem, on which we propose to apply a meta-heuristic method, allowing for the induction of more efficient and autonomous filters. Our work also lead us to explore alternative paradigms for spam filtering (social network analysis, game theoretic models), and their association in a unified filtering system. Finally, we propose the spamtools java package, a library designed to ease the implementation of experimental filters, and their interfacing with standardized evaluation tools such as the TREC evaluation toolkit.