Evaluation de la qualité de la représentation en fouille de données
Institution:
Lyon 2Disciplines:
Directors:
Abstract EN:
Knowledge discovery tries to produce novel and usable knowledge from the databases. In this whole process, data mining is the crucial machine learning step but we must asked some questions first: how can we have an a priori idea of the way of the labels of the class attribute are separable or not? How can we deal with databases where some examples are mislabeled? How can we transform continuous predictive attributes in discrete ones in a supervised way by taking into account the global information of the data ? We propose some responses to these problems. Our solutions take advantage of the properties of geometrical tools: the neighbourhood graphs. The neighbourhood between examples projected in a multidimensional space gives us a way of characterising the likeness between the examples to learn. We develop a statistical test based on the weight of edges that we must suppress from a neighbourhood graph for having only subgraphs of a unique class. This gives information about the a priori class separability. This work is carried on in the context of the detection of examples from a database that have doubtful labels: we propose a strategy for removing and relabeling these doubtful examples from the learning set to improve the quality of the resulting predictive model. These researches are extended in the special case of a continuous class to learn: we present a structure test to predict this kind of variable. Finally, we present a supervised polythetic discretization method based on the neighbourhood graphs and we show its performances by using it with a new supervised machine learning algorithm.
Abstract FR:
L'extraction de connaissances à partir de données (ECD) cherche à produire de nouvelles connaissances utilisables en tirant parti des grandes bases de données. Avant de procéder à la phase de fouille de données, étapes phare de l'ECD, pour pouvoir opérer un apprentissage automatique, un ensemble de questions et de problèmes se posent : comment avoir a priori une idée de la manière dont les étiquettes de la variable à apprendre peuvent être séparées en fonction des variables prédictives ? comment traiter les bases pour lesquelles nous savons que des étiquettes sont fausses ? comment transformer des variables prédictives continues en variables discrètes en tenant compte globalement des informations de la variable à prédire ? Nous proposons diverses réponses à ces problèmes. Ces solutions exploitent les propriétés d'outils géométriques : les graphes de voisinage. Le voisinage entre des individus projetés dans un espace à p dimensions nous fournit un moyen de caractériser la ressemblance entre les exemples à apprendre. A partir de ceci, nous élaborons un test statistique basé sur le poids des arêtes qu'il faut retirer dans un graphe de voisinage pour n'avoir que des sous-graphes d'une seul étiquette, ce qui nous informe de la séparabilité a priori des classes. Nous prolongeons ces réflexions dans le cadre de la détection d'individus dont l'étiquette est douteuse : nous proposons une stratégie de suppression et de réétiquetage d'exemples douteux dans l'échantillon d'apprentissage afin d'augmenter la qualité des modèles prédictifs exploitant cet échantillon de données. Ces travaux sont étendus au cas particulier où la variable à prédire est numérique : nous présentons un test de structure pour la prédiction d'une telle variable. Enfin, nous présenton une méthode de discrétisation supervisée polythétique qui repose sur les graphes de voisinage et montrons ses performances en l'employant avec une méthode d'apprentissage supervisé que nous avons développée.