Analyse probabiliste du contenu de pages web : représentation des sémantiques de contenu dans le paradigme bayésien
Institution:
Paris 6Disciplines:
Directors:
Abstract EN:
Une identification automatique des contenus pertinents de pages Web facilite une large variété d'applications réelles. Finalement, elle nécessite une segmentation du contenu ainsi qu'une classification des segments résultants. Nous proposons donc d'aborder l'analyse du contenu de pages Web dans un cadre de classification interdépendante, établissant la cohérence sémantique à travers des fonctions caractéristiques d'interaction qui décrivent la configuration de plusieurs régions de contenu sémantiquement indivisible. Dans cette thèse, nous proposons de traiter les incertitudes avec un cadre probabiliste cohérent : le paradigme Bayésien. Nous tentons d'éclairer les conditions pour lesquelles un modèle probabiliste peut être justifié en déduisant sa forme de représentation à partir d'hypothèses sur des quantités observables. En particulier, nous examinons différentes dépendances Markoviennes entre des catégories de contenu d'une même page Web. Nous présentons également une analyse informelle des caractéristiques, élucidant l'information disponible dans le contenu, la structure et le style d'une page Web. Une telle analyse est essentielle à la fois pour une modélisation probabiliste formelle et pour une bonne performance prédictive. En outre, nous introduisons une nouvelle base de données publique, appelée News600. Elle contient 604 pages Web réelles de 206 sites, avec plus de 30 catégories sémantiques annotées de manière précise. Enfin, nous menons une série d'expériences sur ce corpus qui démontre que même des modèles relativement simples atteignent des résultats significativement meilleurs que l'état de l'art actuel.
Abstract FR:
Pas de résumé disponible.