Détection d'anomalies dans les flots de liens : combiner les caractéristiques structurelles et temporelles
Institution:
Sorbonne universitéDisciplines:
Directors:
Abstract EN:
A link stream is a set of links {(t, u, v)} in which a triplet (t, u, v) models the interaction between two entities u and v at time t. In many situations, data result from the measurement of interactions between several million of entities over time and can thus be studied through the link stream's formalism. This is the case, for instance, of phone calls, email exchanges, money transfers, contacts between individuals, IP traffic, online shopping, and many more. The goal of this thesis is the detection of sets of abnormal links in a link stream. In a first part, we design a method that constructs different contexts, a context being a set of characteristics describing the circumstances of an anomaly. These contexts allow us to find unexpected behaviors that are relevant, according to several dimensions and perspectives. In a second part, we design a method to detect anomalies in heterogeneous distributions whose behavior is constant over time, by comparing a sequence of similar heterogeneous distributions. We apply our methodological tools to temporal interactions coming from retweets of Twitter and IP traffic of MAWI group.
Abstract FR:
Un flot de liens est un ensemble de liens {(t,u,v)} dans lequel un triplet (t,u,v) modélise l'interaction entre deux entités u et v à l'instant t. Dans de nombreuses situations, les données résultent de la mesure des interactions entre plusieurs millions d'entités au cours du temps et peuvent ainsi être étudiées grâce au formalisme des flots de liens. C'est le cas des appels téléphoniques, des échanges d'e-mails, des transferts d'argent, des contacts entre individus, du trafic IP, des achats en ligne, et bien d'autres encore. L'objectif de cette thèse est la détection d'ensembles de liens anormaux dans un flot de liens. Dans une première partie, nous concevons une méthode qui construit différents contextes, un contexte étant un ensemble de caractéristiques décrivant les circonstances d'une anomalie. Ces contextes nous permettent de trouver des comportements inattendus pertinents, selon plusieurs dimensions et perspectives. Dans une seconde partie, nous concevons une méthode permettant de détecter des anomalies dans des distributions hétérogènes dont le comportement est constant au cours du temps, en comparant une séquence de distributions hétérogènes similaires. Nous appliquons nos outils méthodologiques à des interactions temporelles provenant de retweets sur Twitter et de trafic IP du groupe MAWI.