Knowledge Tree

thesis

Apprentissage en distributions déséquilibrées

Defense date:

Jan. 1, 2012

Edit

Institution:

Paris 13

Disciplines:

Computer sciences

Authors:

Fatma Hamdi

Directors:

Younès Bennani

Abstract EN:

The research work exposed in this thesis concerns the development of approaches for processing and modeling unbalanced databases. In order to afford solutions to this problem, we propose different contributions. A first proposition acting at the learning data level SNCR, it is a technique of adaptive structural sampling that allowing data rebalancing by sub-sampling of the ma jority class. The proposed method is guided by the topological structure of the data and their distribution. The second proposed approach in this thesis discuss the problem of one class learning, it is a way allowing to bypass the problem of unbalanced classes to a novelty detection problem. The model RS-􀀀NDF is based on a set of adaptive filters. Every filter is conceived in a description subspace which the components and the dimension are randomly chosen. Besides, we propose an improvement of the quality of RS-NFD by an extension SRS-NDF allowing to reduce the number of models participating in the decision. The goal is to choose between those filters the sub-set which allows to reach the best performances. Finally, we propose an adaptation of the RS-NDF approach to the concept drift detection problem. The results obtained using the proposed approaches are encouraging and promising.

Abstract FR:

Le travail de recherche présenté dans cette thèse concerne le développement d’approches à base d’apprentissage artificiel pour le traitement des bases de données déséquilibrées. Afin d’apporter des éléments de réponse pour cette problématique, nous proposons différentes contributions. Une première méthode qui agit au niveau des données d’apprentissage SNCR, c’est une technique d’échantillonnage structurel adaptatif qui permet de rééquilibrer les données par sous-échantillonnage de la classe majoritaire. La méthode proposée est guidée par la structure topologique des données et leur distribution. La seconde contribution proposée dans cette thèse aborde le problème de l’apprentissage à partir d’une seule classe, c’est un moyen permettant de contourner le problème de classes déséquilibrées à un problème de détection de nouveauté. Le modèle RS-NDF 􀀀est basée sur un ensemble de filtres adaptatif. Chaque filtre est conçu dans un espace de description dont les composantes et la dimension sont choisies aléatoirement. Nous avons proposé en outre une amélioration de la qualité de RS-NDF par une extension plus économe SRS-􀀀NDF, permettant de réduire le nombre de modèles participant à la prise de décision. L’objectif est de choisir parmi cet ensemble de filtres, le sous ensemble qui permet d’atteindre les meilleurs performances. Enfin nous avons proposé une adaptation de l’approche RS-NDF au problème de la détection de la dérive de concept. Les résultats obtenus sur la validation des approches traités an cette étude sont encourageants et prometteurs.