Refresh Strategies and Online Change Estimation for Highly Dynamic Web Content
Institution:
Paris 6Disciplines:
Directors:
Abstract EN:
Avec l'expansion importante d'appareils connectés à l'Internet et l'essor du Web 2. 0, le contenu web se diversifie et devient de plus en plus dynamique. Afin de faciliter la diffusion de flux d'informations évolutives et souvent temporaires (news, messages, annonces), des nombreuses applications web publient les items d'informations les plus récentes dans des documents RSS ou Atom qui sont ensuite collectés et transformés par des agrégateurs RSS comme Google Reader ou Yahoo! News. Nos recherches se placent dans le contexte d'agrégation de documents RSS dynamiques et se focalisent sur l'optimisation du rafra”chissement et de l'estimation en ligne du changement de contenu RSS hautement dynamique. Nous introduisons et formalisons deux mesures qualitatives spécifiques à l'agrégation de flux RSS qui refltent la complétude et la fra”cheur moyenne du flux d'information agrége. Nous proposons une stratégie de rafra”chissement du "meilleur effort" qui maximise la qualité de l'agrégation par rapport aux autres approches existantes avec un nombre moyen de rafra”chissements identique. Nous présentons une analyse des caractéristiques générales de l'activité de publication des flux RSS réels en se focalisant surtout sur la dimension temporelle. Nous étudions différentes modles et méthodes d'estimation de changements d'activité et leur intégration dans les stratégies de rafraîchissement. Les méthodes présentés ont été implémentés et testés sur des données synthétiques et des flux RSS réels
Abstract FR:
Pas de résumé disponible.