Automated protocol learning for the observation of malicious threats
Institution:
NiceDisciplines:
Directors:
Abstract EN:
One of the main prerequisites for the development of reliable defenses to protect a network resource consists in the collection of quantitative data on Internet threats. This attempt to “know your enemy” leads to an increasing interest in the collection and exploitation of datasets providing intelligence on network attacks. The creation of these datasets is a very challenging task. The challenge derives from the need to cope with the spatial and quantitative diversity of malicious activities. The observations need to be performed on a broad perspective, since the activities are not uniformly distributed over the IP space. At the same time, the data collectors need to be sophisticated enough to extract a sufficient amount of information on each activity and perform meaningful inferences. How to combine the simultaneous need to deploy a vast number of data collectors with the need of sophistication required to make meaningful observations? This work addresses this challenge by proposing a protocol learning technique based on bioinformatics algorithms. The proposed technique allows to automatically generate low-cost responders starting from a set of samples of network interaction. Its characteristics are exploited in a distributed honeypot deployment that collected information on Internet attacks for a period of 8 months in 23 different networks distributed all over the world (Europe, Australia, United States). This information is organized in a central dataset that is analyzed in the context of this work.
Abstract FR:
Un des préalables au développement de défenses fiables pour la protection d'un réseau informatique est la collection de données quantitatives sur les menaces qui le visent depuis l'Internet. Ce besoin de « connaître notre ennemi » induit un intérêt croissant pour la collecte et l'exploitation des informations sur les activités malveillantes observables. La création de bases de données recensant ces événements n'est pas une tâche facile. En effet, il faut pouvoir tenir compte de la diversité quantitative et spatiale des attaques. La collecte des données doit être pratiquée sur une grande échelle car les sources et destinations d'attaques ne sont pas uniformément réparties sur l'espace des adresses IP. En même temps, les techniques de collecte de données doivent être suffisamment sophistiquées pour extraire une quantité suffisante d'informations sur chaque activité et permettre des déductions sur les phénomènes observés. Il faut donc pouvoir déployer un grand nombre de capteurs et chacun de ces capteurs doit être à même de fournir des informations riches. Ce travail propose une solution qui concilie facilité de déploiement et richesse de collecte. Il introduit de nouvelles techniques pour construire des systèmes de collecte de données simples mais évolutives, capables de fournir des informations détaillées sur les événements observés. Ces techniques sont mises en pratique dans un système distribué qui a recueilli des informations sur une période de 8 mois dans 23 différents réseaux situés dans le monde entier (Europe, Australie, Etats Unis). Ces informations ont été organisées dans un base de données, et une méthode d'analyse a été proposée et validée sur ces données.