thesis

Fluid models for content distribution systems

Defense date:

Jan. 1, 2005

Edit

Institution:

Nice

Disciplines:

Directors:

Abstract EN:

Content distribution systems (CDS) such as web caches and file sharing systems are large-scale distributed systems that may serve hundreds of thousands of users. These highly dynamic systems exhibit a very large state space which makes them difficult to analyze with classical tools such as Markovian models or simulation. In this thesis we propose macroscopic fluid models to reduce the complexity of these systems. We show that these simple models provide accurate and insightful results on the performance of CDS. In a first part, we propose a generic fluid model for distributed caching systems. The idea is to replace cached documents with fluid that increase with unsatisfied requests. Caches may go up and down according to a birth-death process. We apply this model to study two caching systems : cache clusters and P2P cooperative cache system called Squirrel. We derive an efficient and accurate expression of their hit probabilities and show how the model identifies the key tradeoffs of these systems. We also propose a multicasts approximation for taking into account document popularity. In the second part of the thesis we consider file sharing systems such as BitTorrent. We propose a two-class fluid model which replaces downloaders with fluids. This simple deterministic model may reflect the problem of service differentiation or bandwidth diversity for instance. We provide a closed-form expression of the average download time for each class under the word-case assumption that users leave the system immediately after completing their download. We also show how to allocate peers bandwidth between classes to achieve service differentiation.

Abstract FR:

Les systèmes de distribution de contenu comme les caches web et les réseaux d’échanges de fichiers doivent pouvoir servir une population de clients à la fois très grande (centaines de milliers) et fortement dynamique (temps de connexion très courts). Ces caractéristiques rendent leur analyse très coûteuse par les approches traditionnelles comme les modèles markoviens ou la simulation. Dans cette thèse, nous proposons des modèles fluides simples permettant de s’affranchir de l’une des dimensions du problème. Dans la première partie, nous développons un modèle stochastique fluide pour les systèmes de caches distribués. Les documents stockés sont modélisés par un fluide augmentant avec les requêtes insatisfaites. Nous appliquons ce modèle aux « clusters » de caches et à Squirrel, un système de cache pair-à-pair. Dans les deux cas notre modèle permet de calculer efficacement et avec précision la probabilité de hit, et de mettre en évidence les paramètres clés de ces systèmes. Nous proposons également une approximation multiclasses pour modéliser la popularité des documents. Dans la seconde partie de cette thèse, nous étudions BitTorrent, un système d’échange de fichiers pair-à-pair. Nous proposons un modèle fluide multiclasses qui remplace les usagers par un fluide. Nous considérons deux classes d’usager pour modéliser les différences de débits d’accès ou de qualité de service. Nous obtenons une formule close pour le temps de téléchargement dans chaque classe. Nous montrons également comment allouer la bande passante à chaque classe pour offrir un service différencié.