thesis

Bayesian network structure learning with applications in feature selection

Defense date:

Jan. 1, 2009

Edit

Institution:

Lyon, INSA

Disciplines:

Directors:

Abstract EN:

The study developed in this thesis focuses on constraint-based methods for identifying the Bayesian networks structure from data. Novel algorithms and approaches are proposed with the aim of improving Bayesian network structure learning with applications to feature sub- set selection, probabilistic classification in the presence of missing values and detection of the mechanism of missing data. Extensive empirical experiments were carried out on synthetic and real-world datasets in order to compare the methods proposed in this thesis with other state-of-the-art methods. The applications presented include extracting the relevant risk factors that are statistically associated with the Nasopharyngeal carcinoma, a robust analysis of type 2 diabetes from a dataset consisting of 22,283 genes and only 143 samples and a graphical representation of the statistical dependencies between 34 clinical variables among 150 obese women with various degrees of obesity in order to better understand the pathophysiology of visceral obesity and provide guidance for its clinical management.

Abstract FR:

Plusieurs algorithmes à base de contrainte ont été proposés récemment pour l'apprentissage de la structure de réseaux Bayésiens. Ils cherchent des relations d'indépendance conditionnelles parmi les variables sur un ensemble de données et construisent une structure locale autour de la variable cible sans devoir construire toute la structure du réseau Bayésien d'abord. Ces algorithmes sont appropriés aux situations où la qualité de données disponible est vaste par rapport au degré du réseau. C'est-à-dire le nombre de parents et des enfants de chaque variable dans le réseau est relativement petit par rapport au nombre d'instances dans la base de données. Cependant, ils sont piégés par un problème sévère : l'important nombre de négatifs faux. Ce problème bien connu est commun à toutes les méthodes à base de contrainte et ont été fortement considérés dans cette thèse. Les principales contributions de l'auteur de cette thèse incluent : 1. Une discussion sur des méthodes simples pour identifier et traiter des relations presque déterministes dans l'apprentissage de la structure de réseaux Bayésins à base de contrainte ; 2. Un nouveau algorithme appelé Hybride Parents et Enfants (HPC). HPC a été prouvé être correct dans la condition de fidélité ; 3. Une extension de HPC conçu dans le but spécifique de sélection de variables pour classification probaliliste ; 4. Un algorithme conservateur pour la sélection de variables à partir de jeux de données incomplets ; 5. Une nouvelle approche graphique pour exploiter des données marquant dans la modélisation des réseaux Bayésiens. Les principales applications des méthodes présentées dans cette thèse aux problèmes réels fait par l'auteur incluent : 1. L'application de l'algorithme HPC pour extraire les facteurs de risque qui sont statistiquement associés au cancer du Nasopharynx (NPC); 2. L'application de l'algorithme MBOR sur un ensemble de données de puces pour fournir une analyse robuste de diabète de type 2.