Visualisation et algorithmes génétiques pour la fouille de grands ensembles de données
Institution:
NantesDisciplines:
Directors:
Abstract EN:
We present cooperative approaches using interactive visualization methods and automatic dimension selection methods for knowledge discovery in databases. Most existing data mining methods work in an automatic way, the user is not implied in the process. We try to involve more significantly the user role in the data mining process in order to improve his confidence and comprehensibility of the obtained models or results. Furthermore, the size of data sets is constantly increasing, these methods must be able to deal with large data sets. We try to improve the performances of the algorithms to deal with these high dimensional data sets. We developed a genetic algorithm for dimension selection with a distance-based fitness function for outlier detection in high dimensional data sets. This algorithm uses only a few dimensions to find the same outliers as in the whole data sets and can easily treat high dimensional data sets. The number of dimensions used being low enough, it is also possible to use visualization methods to explain and interpret outlier detection algorithm results. It is then possible to create a model from the data expert for example to qualify the detected element as an outlier or simply an error. We have also developed an evaluation measure for dimension selection in unsupervised classification and outlier detection. This measure enables us to find the same clusters as in the data set with its whole dimensions as well as clusters containing very few elements (outliers). Visual interpretation of the results shows the dimensions implied, they are considered as relevant and interesting for the clustering and outlier detection. Finally we present a semi-interactive genetic algorithm involving more significantly the user in the selection and evaluation process of the algorithm.
Abstract FR:
Nous présentons des approches coopératives combinant des méthodes interactives de visualisation et des méthodes automatiques de sélection de dimensions pour l'extraction de connaissances à partir de données. La plupart des méthodes actuelles de fouille de données fonctionnent de manière automatique, l'utilisateur n'est que peu impliqué dans le processus. Nous souhaitons impliquer de manière plus significative l'utilisateur dans le processus de fouille pour améliorer sa confiance et sa compréhension des modèles ou résultats obtenus. Par ailleurs ces méthodes doivent pouvoir traiter des quantités de plus en plus importantes de données. Nous cherchons aussi à améliorer les performances des algorithmes de fouille pour pouvoir traiter des ensembles de données de grandes dimensions. Nous avons développé un algorithme génétique de sélection de dimensions avec une fonction d'évaluation à base de distance pour la détection d'individu atypique (ou outlier) dans les ensembles de données ayant un grand nombre de dimensions. Cet algorithme recherche les outliers en n'utilisant qu'un petit sous-ensemble de dimensions et permet de retrouver les mêmes individus outliers que dans l'ensemble total des données. On peut ainsi traiter plus facilement de grands ensembles de données. De plus, comme le nombre de dimensions utilisées est faible, nous pouvons utiliser des méthodes de visualisation pour expliquer et interpréter les résultats de l'algorithme de détection d'outlier. Nous pouvons ainsi construire un modèle de l'expertise de l'expert des données pour qualifier les éléments détectés par exemple en tant qu'erreurs ou simplement individus atypiques (outliers). Nous avons ensuite développé une mesure pour la sélection de dimensions en classification non supervisée (clustering) et détection d'outlier. Cette mesure nous permet à la fois de retrouver les mêmes clusters que dans l'ensemble de données avec toutes ses dimensions et des clusters pouvant contenir très peu d'éléments (des outliers). L'interprétation visuelle des résultats obtenus nous indique les dimensions impliquées, ce sont les dimensions pertinentes et intéressantes pour le clustering ou la détection d'outlier. Enfin nous présentons un algorithme génétique semi-interactif permettant d'impliquer l'utilisateur dans le processus de sélection et d'évaluation du sous-ensemble de dimensions à utiliser.