thesis

Détection et analyse d'une thématique rare dans de grands ensembles de requêtes : l'activité pédophile dans le P2P

Defense date:

Jan. 1, 2012

Edit

Institution:

Paris 6

Disciplines:

Directors:

Abstract EN:

L'objectif de cette thèse est d'utiliser de grands ensembles de requêtescollectés sur des systèmes P2P pour étudier l'activité pédophile au sein de ces réseaux. Afin de détecter les requêtes qui ciblent des contenus pédopornographiques, nousconcevons un outil capable de les distinguer. Nous faisons ensuite classer desrequêtes par des experts, pour évaluer les performances de cet outil. Celui-cidisposant d'une précision élevée et d'un bon rappel, nous l'utilisons pour estimerde façon fiable la fraction de requêtes pédophiles, proche de 0,25%. Nous abordons ensuite la quantification des utilisateurs entrant ces requêtes,ce qui est difficile car l'on ne dispose que de l'adresse IP et éventuellementd'un port de communication. Nous étudions les erreurs de détection commises surles utilisateurs et estimons que la fraction d'utilisateurs pédophiles estproche de 0,22%. Nous analysons ensuite la dynamique temporelle de l'activité pédophile. Nousobservons que la fraction de requêtes pédophiles a significativement augmentéentre 2009 et 2012. Nous constatons que les utilisateurs pédophiles privilégientla fin de la nuit pour effectuer ce type de requêtes, ce en quoi ils diffèrentdes autres utilisateurs, notamment ceux soumettant des requêtes pornographiques. Enfin, nous confrontons les résultats obtenus sur le réseau eDonkey avec ceux duréseau KAD, après avoir obtenu des données comparables. Nous constatons que KAD,complètement décentralisé et supposé plus anonyme qu'eDonkey, présente uneactivité pédophile plus faible que ce dernier. Nous estimons que la fraction derequêtes pédophiles sur KAD est proche de 0. 1%

Abstract FR:

The goal of this thesis is to study paedophile activity in P2P networks, usingvery large sets of search engine collected queries. In order to detect such paedophile-related queries, we design an automatic toolwhich labels queries as paedophile or not, based on the keywords the querycontains. We then have some sample queries labeled by experts, to estimate theprecision and recall of our tool, which are good. We obtain that the fraction ofpaedophile queries is close to 0. 25% (in 2009). We quantify users entering such queries, which is difficult in this context,because only the IP address (and sometimes a connection port) is known. We studydifferent methods to avoid mixing users and the detection errors of our tool onusers. We estimate that the fraction of paedophile users is close to 0. 22%. We analyse the evolution of paedophile activity. The fraction of paedophilequeries significantly increases between 2009 and 2012. We also observe thatpaedophile queries are submitted mostly around 6am, which is enlightening on thesocial integration of such users - they significantly differ from traditionalpornography users. Eventually, we compare the eDonkey and KAD networks. We design an adequatemethodology to obtain relevant data on KAD and observe that, however moredecentralized and allegedly more anonymous, KAD hosts less paedophile activitythan eDonkey (0. 1% approximately).