Internet traffic profiling identification
Institution:
NiceDisciplines:
Directors:
Abstract EN:
The evolution of the Internet in the last few year has been characterized by dramatic changes in the way users behave, interact and utilize the network. This was accompanied by the introduction of new categories of applications such as network games and peer-to-peer services. One of the most important challenges for network administrators and ISPs is then becoming the identification of Internet traffic applications in order to protect their resources from unwanted traffic and to prioritize some major applications. Statistical methods are preferred to port-based ones and deep packet inspection since they donât rely on the port number and they also work for encrypted traffic. Theses methods combine the statistical analysis of the application packet flow parameters, such as packet size and inter-packet time, with machine learning techniques. However, the majority of these statistical methods cannot identify flows early and require reaching the end of flows before taking any decision which is considered as too late for network administrators ; indeed they do not provide means to stop an Internet flow or to give it a special quality of service early in its lifetime. Another important challenge for network administrators is to detect and diagnose key network changes as a long-term congestion, a rerouting, a link failure or any other even causing a shift in network delays. In the literature there is a huge amount of anomaly detection methods but most of them require exhaustive measurements to function properly. Reducing the load of network-wide monitoring is always a vital need for network administrators. In this thesis we present several contributions around Internet traffic identification and network-wide anomaly detection. In the first part we present three methods we have developed in order to identify accurately and on the fly the Internet traffic. The first method is a new online iterative probabilistic method that identifies applications quickly and accurately by only using the size of the first N packets. The second method enhances the first one with the inter-packet time in order to identify Internet traffic, this has required the introduction of a model to isolate the noise due to network conditions and to extract the time generated by the applications themselves. Our third method is a new online method for traffic classification that combines the statistical and host-based approaches in order to construct a robust and precise method for early Internet traffic identification. We use the packet size as the main feature for the classification and we benefit from the traffic profile of the host (i. E. Which application and how much) to decide in favour of this or that application. In the second part of this thesis, we aboard the problem of network-wide anomaly detection. We start by making a study about the stability of Internet coordinate systems (especially Vivaldi). In a first stage we confirm the fact that Vivaldi coordinates are most of the time correlated with each other pointing to a stable cluster of nodes seen from inside the network. In a second stage, we present a new clustering algorithm based on the data mining Hierarchical Grouping method to identify this cluster of stable nodes. Finally, we highlight the utility of such finding with and application that tracks changes in network delays. By changing artificially the network delays in different scenarios, we show that these changes are easily reflected by this body of stable nodes, hence allowing to obtain a global picture about the stability of the underlying network without the need for exhaustive delay measurements.
Abstract FR:
L’évolution de l’Internet dans les dernières années a été caractérisée par des changement dramatiques dans la manière dont les utilisateurs se comportent, interagissent et utilisent le réseau. Ceci a été particulièrement accompagné par l’introduction de nouvelles classes d’applications telles que les jeux en ligne et les réseaux pair-à-pair. L’un des défis les plus importants pour les administrateurs réseau et les ISPs est alors devenu l’identification du trafic Internet afin de pouvoir protéger leurs ressources contre le trafic indésirable et de prioriser certaines applications majeures. Les méthodes statistiques sont préférées à celles basées sur le numéro de port et l’inspection approfondie des paquets, car elles sont robustes au changement malveillant du numéro de port et fonctionnent avec le trafic crypté. Ces méthodes combinent l’analyse des paramètres statistiques des flux de paquets, tels que la taille des paquets et le temps les séparant, avec des techniques issues de la théorie d’apprentissage (machine learning). La majorité des méthodes statistiques ne peuvent pas identifier les flux applicatifs en temps réel et elles ont besoin d’atteindre la fin des flux avant de prendre une décision sur leur nature. Ceci est considéré comme trop long pour la plupart des administrateurs réseau, puisqu’il ne permet pas de bloquer un flux Internet indésirable à son début ni de lui donner en amont une qualité particulière de service. Un autre défi important pour les administrateurs réseau est de détecter et diagnostiquer tout changement dans le réseau comme une congestion à long terme, un changement dans le routage, une défaillance d’une liaison ou tout autre événement entraînant un changement dans les délais réseau. Dans la littérature, il y a un grand nombre de méthodes pour détecter des anomalies dans le réseau, mais la plupart de ces méthodes ont besoin de générer un volume considérable de trafic destiné) la métrologie du réseau. La réduction de la charge des mesures est un besoin vital pour les administrateurs réseaux. Dans cette thèse, nous décrivons les travaux que nous avons menés sur l’identification du trafic Internet et sur la détection des anomalies dans les réseaux. Dans la première partie, nous présentons nos trois méthodes que nous avons développées au cours de cette thèse, et qui permettent d’identifier avec précision et à la volée le trafic Internet. La première méthode, par sa nature itérative et probabiliste, identifie les applications rapidement et avec une grande précision en utilisant uniquement la taille des N premiers paquets. La deuxième méthode enrichit la première avec les temps entre paquets, pour cela nous avons eu besoin d’introduire un modèle pour filtrer le bruit dû aux conditions du réseau et d’extraire des mesures le temps d’attente due aux applications. Notre troisième méthode pour la classification du trafic en ligne combine les approches statistiques à des informations sur le comportement des machines hôtes afin de rendre l’identification du trafic Internet encore plus précis tout en profilant les activités réseaux des hôtes. Pour notre troisième méthode, nous utilisons la taille des paquets comme paramètre principal et nous exploitons les informations sur l’interaction des machines pour mieux affecter un flux à une application. Dans la deuxième partie de cette thèse, nous abordons le problème de détection des anomalies dans les réseaux. Nous commençons par une étude sur la stabilité des systèmes de coordonnées Internet (particulier Vivaldi). Dans une première étape, nous confirmons le fait que les coordonnées de Vivaldi oscillent au fil du temps en raison de la nature adaptative du système. Toutefois, les variations de ces coordonnées sont dans la plupart des temps en corrélation les unes avec les autres, pointant par conséquent vers un cluster de nœuds stables vu de l’intérieur du réseau. Dans un deuxième temps, nous présentons un nouvel algorithme de cloustering basé sur des méthodes de groupement hiérarchique afin d’identifier ce cluster de nœuds stables. Enfin, nous soulignons l’utilité d’une telle constatation avec une application qui permet de détecter les changements dans le réseau. En changeant artificiellement les délais du réseau dans différents scénarios, nous montrons que ces changements sont reflétés par ce corps de nœuds stables, permettant ainsi d’obtenir une image globale de la stabilité du réseau sans avoir besoin de mesures exhaustives des délais.