Construction d'objets symboliques par synthèse des résultats de requêtes SQL
Institution:
Paris 9Disciplines:
Directors:
Abstract EN:
Pas de résumé disponible.
Abstract FR:
Avec l’augmentation des sources d’informations, l’accumulation des données de toutes sortes s’intensifie. L’objectif de notre travail est de synthétiser un ensemble d’informations stocké dans une base de données relationnelle (BDR). Il est alors possible dans un second temps d’effectuer des analyses ultérieures non pas sur les données initiales mais sur les résultats obtenus par synthèse. Pour ce faire, nous nous intéressons au mode de sélection d’une information statistique à partir d’une BDR et au choix d’une méthode de généralisation, efficace pour la synthèse de l’information. Dans le cadre de notre travail, la notion de généralisation est fondée sur le pouvoir de recouvrement d’une description par rapport aux données initiales. Notre problématique peut s’inscrire naturellement au sein du data mining. La synthèse d’informations que nous effectuons donne lieu à une base de connaissances, décrite dans le formalisme des objets symboliques. Ce formalisme, défini par Edwin Diday dans le cadre de l’analyse des données symboliques, permet de prendre en compte la notion de variabilité dans chaque donnée du tableau. Les méthodes d’analyse prennent alors en entrée, des tableaux de données complexes où chaque donnée peut être un intervalle ou encore une distribution. Dans notre thèse, nous définissons les opérateurs utiles pour l’élaboration d’une telle base de connaissances à partir d’informations sélectionnées par des requêtes SQL. Nous introduisons les notions statistiques de population, d’échantillon, de taxinomie et de généralisation dans le contexte base de données. La spécificité de notre approche pour la généralisation réside dans le choix d’un bon compromis entre la réduction du volume de données à traiter et la perte d’informations qu’elle induit. Pour ce faire, nous définissons un critère de qualité d’une généralisation. Nous présentons deux approches pour améliorer la description généralisante par rapport aux données initiales. Une première méthode réduit la description en éliminant les valeurs atypiques. Elle vise ainsi à améliorer l’homogénéité de la répartition des individus par rapport à la description obtenue. L’autre méthode résume les observations par une structure classificatoire obtenue en maximisant l’adéquation de chaque classe avec sa description par élimination des associations entre variables.