Ordre, codage et extension du critère de Kolmogorov-Smirnov pour la segmentation de données symboliques
Institution:
Paris 9Disciplines:
Directors:
Abstract EN:
We adapt Kolmogorov-Smirnov's binary splitting criterion to interval, diagram and taxonomical data for decision tree induction. This criterion requires an order on the values of the objects. It is based on the cumulative distribution function. We order these data in different ways. The approximation of the theoretical distribution function by the empirical distribution function makes it possible to adapt this criterion to these data. In segmentation, the variable to explain is usually qualitative. In our case, it can be a symbolic variable of interval, diagram or taxonomical type. Different coding criteria of these types of variables are proposed. This criterion is compared with two criteria (entropy and Gini). Two assignment methods are examined: the first assigns an object entirely to one node and the second assigns it to both children nodes generated by a split. This last method takes into account the position of the data to be classified with regard to the selected data for the cut. We present an algorithm to explain the correlations inside the classes of a partition obtained on a classical variable and a practical application on a Luxemburg border zone workers.
Abstract FR:
Nous adaptons le critère de découpage binaire de Kolmogorov-Smirnov aux données de type intervalle, diagramme et taxonomique. Ce critère nécessite un ordre des descriptions des objets. Il est basé sur la fonction de répartition. Nous ordonnons ces données de différentes façons. L'estimation de la fonction de répartition théorique par la fonction de répartition empirique permet l'adaptation de ce critère à ces données. En segmentation, la variable à expliquer est souvent qualitative au départ. Dans notre cas, elle peut être de type intervalle, diagramme ou taxonomique. Différents critères de codage de telles variables sont proposés. Ce critère est comparé à celui de l'entropie et de Gini. Deux méthodes d'affectation sont examinées : la première affecte un objet entièrement à un nœud et la deuxième l'affecte à la fois aux deux nœuds fils générés par un découpage. Cette dernière tient compte de la position de la donnée à classer par rapport à celle seuil de coupure. Un algorithme pour expliquer les corrélations à l'intérieur des classes d'une partition obtenue sur une variable classique et une application sur une main d'œuvre frontalière du Luxembourg sont présentés.