thesis

Root cause analysis of TCP throughput : methodology, techniques, and applications

Defense date:

Jan. 1, 2006

Edit

Institution:

Nice

Disciplines:

Directors:

Abstract EN:

The interest for the research community to measure the Internet has grown tremendously during the last couple of years. Thisncrease of interest is largely due to the growth and expansion of the Internet that has been overwhelming. We have experienced exponential growth in terms of traffic volumes and number of devices connected to the Internet. In addition, the heterogeneity of the Internet is constantly increasing: we observe more and more different devices with different communication needs residing in or moving between different types of networks. This evolution has brought up many needs - commercial, social, and technical needs - to know more about the users, traffic, and devices connected to the Internet. Unfortunately, little such knowledge is available today and more is required every day. That is why Internet measurements has grown to become a substantial research domain today. This thesis is concerned with TCP traffic. TCP is estimated to carry over 90% of the Internet's traffic, which is why it plays a crucial role in the functioning of the entire Internet. The most important performance metrics for applications is typically throughput, i. E. The amount of data transmitted over a period of time. Our definition of the root cause analysis of TCP throughput is the analysis and inference of the reasons that prevent a given TCP connection from achieving a higher throughput. These reasons can be many: application, network, or even the TCP protocol itself. This thesis comprises three parts: methodology, techniques, and applications. The first part introduces our database management system-based methodology for passive traffic analysis. In that part we explain our approach, the InTraBase, which is based on an object-relational database management system. We also describe our prototype of this approach, which is implemented on PostgreSQL, and evaluate and optimize its performance. In the second part, we present the primary ontributions of this thesis: the techniques for root cause analysis of TCP throughput. We introduce the different potential causes that can prevent a given TCP connection to achieve a higher throughput and explain in detail the algorithms we developed and used to detect such causes. Given the large heterogeneity and potentially large impact of applications that operate on top of TCP, we emphasize their analysis. The core of the third part of this thesis is a case study of traffic originating from clients of a commercial ADSL access network. The study focuses on performance analysis of data transfers from a point of view of the client. We discover some surprising results, such as poor overall performance of P2P applications for file distribution due to upload rate limits enforced by client applications. The third part essentially binds the two first ones together: we give an idea of the capabilities of a system combining the methodology of the first part with the techniques of the second part to produce meaningful results in a real world case study.

Abstract FR:

L'intérêt pour la métrologie de l'Internet s'est beaucoup accru ces dernières années. Ceci est en grande partie dû à la croissance de l'Internet en termes de volumes de trafic et de nombre de machines reliés à l'Internet. Cette évolution a sucité beaucoup d'envies - du point de vue commercial, social, et technique - d'en savoir plus au sujet des utilisateurs et du trafic Internet en général. Malheureusement, il y a peu de connaissances de ce type disponibles aujourd'hui. C'est pourquoi la métrologie de l'Internet est devenue un domaine substantiel de recherches. Cette thèse porte sur l'analyse du trafic TCP. On estime que TCP transporte 90% du trafic Internet, ce qui implique que TCP est une pièce essentielle dans le fonctionnement de l'Internet. La métrique de performance la plus importante pour les applications est, dans la plupart des cas le débit de transmission ; c'est-à-dire la quantité des données transmises par périodes de temps. Notre objectif est l'analyse du débit de transmission de TCP et l'identification des raisons qui empêchent une connexion TCP d'obtenir un débit plus élevé. Ces raisons peuvent être multiples: l'application, le réseau, ou même le protocole TCP lui-même. Cette thèse comporte trois parties. Une première partie sur la méthodologie, une seconde sur techniques d'analyse de TCP, et une dernière qui est une application de ces technique. Dans la première partie, nous présentons notre méthodologie basée sur un système de gestion de base de données (DBMS) pour l'analyse passive de trafic. Nous expliquons notre approche, nommée InTraBase, qui est basée sur un système de gestion de base de données orienté objet. Nous décrivons également notre prototype de cette approche, qui est implémenté au dessus de PostgreSQL, et nous évaluons et optimisons ses performances. Dans la deuxième partie, nous présentons les contributions principales de cette thèse: les techniques d'analyse des causes du débit de transmission TCP observé. Nous présentons les différentes causes potentielles qui peuvent empêcher une connexion TCP d'obtenir un débit plus élevé et nous expliquons en détail les algorithmes que nous avons développé pour détecter ces causes. Etant donné leur hétérogénéité et leur impact sur le débit TCP, nous accordons une grande importance aux applications au dessus de TCP. La troisième partie de cette thèse est une étude de cas du trafic des clients d'un réseau d'accès commercial d'ADSL. L'étude se concentre sur l'analyse des performances des transferts de données d'un point de vue client. Nous démontrons quelques résultats étonnants, tel le fait que les performances globalement faibles des applications pair-à-pair sont dues aux limitations du débit de transmission imposées par ces applications (et non à la congestion dans le réseau).