thesis

Evaluation qualitative et guidage des utilisateurs en fouille visuelle de données

Defense date:

Jan. 1, 2005

Edit

Institution:

Lyon 2

Disciplines:

Abstract EN:

Pas de résumé disponible.

Abstract FR:

Nos travaux s'inscrivent dans le domaine de la fouille visuelle de données (plus précisément en classification) et se fondent sur l'extraction de connaissances dans les données, l'apprentissage automatique, la qualité des interfaces et des logiciels, l'ergonomie des logiciels, le génie logiciel et l'interaction homme machine. L'évaluation de la qualité des modèles obtenus est basée la plupart du temps sur une estimation du taux de mauvaise classification. Cette estimation du taux de mauvaise classification est nécessaire mais pas suffisante pour l'évaluation de la qualité des outils de fouille visuelle de données. En effet, les outils et techniques de ce type utilisent des interfaces, des représentations graphiques, des ensembles de données et nécessitent la participation des utilisateurs finaux. Partant d'un état de l'art sur la visualisation, la fouille visuelle et la qualité des logiciels, nous proposons une méthode d'inspection experte et une méthode de diagnostic pour une analyse et une évaluation qualitative fine qui tient compte des spécificités du domaine abordé. Nous avons développé des guides de style et des critères de qualité pour l'analyse et le diagnostic des outils de fouille visuelle. Du point de vue des utilisateurs, afin d'utiliser les informations relatives à leurs profils et à leurs préférences tout au long du processus de fouille, nous avons aussi proposé un modèle de l'utilisateur final des outils de fouille visuelle. Des études de cas menées avec la méthode de diagnostic proposée nous permettent de relever des problèmes autres que ceux résultant de l'estimation du taux de mauvaise classification. Ce travail présente aussi des solutions apportées à deux problèmes recensés durant l'analyse et le diagnostic des outils de fouille visuelle existants : le choix du meilleur algorithme pour une tâche de classification supervisée et le prétraitement de grands ensembles de données. Nous avons considéré le problème du choix du meilleur algorithme de classification comme un problème de décision multicritères. L'intelligence artificielle permet d'apporter des solutions à l'analyse multicritères. Nous utilisons les résultats issus de ce domaine à travers le paradigme multi-agents et le raisonnement à partir de cas pour proposer une liste d'algorithmes d'efficacité décroissante pour la résolution d'un problème donné et faire évoluer les connaissances de la base de cas. En ce qui concerne le traitement des ensembles de données de très grande taille, les limites de l'approche visuelle concernant le nombre d'individus et le nombre de dimensions sont connues de tous. Pour pouvoir traiter ces ensembles de données, une solution possible est d'effectuer un prétraitement de l'ensemble de données avant d'appliquer l'algorithme interactif de fouille. La réduction du nombre d'individus est effectuée par l'application d'un algorithme de clustering, la réduction du nombre de dimensions se fait par la combinaison des résultats d'algorithmes de sélection d'attributs en appliquant de la théorie du consensus (avec une affectation visuelle des poids). Nous évaluons les performances de nos nouvelles approches sur des ensembles de données de l'UCI et du Kent Ridge Bio Medical Dataset Repository.