thesis

Forêts aléatoires : de l’analyse des mécanismes de fonctionnement à la construction dynamique

Defense date:

Jan. 1, 2009

Edit

Institution:

Rouen

Disciplines:

Authors:

Directors:

Abstract EN:

This research work is related to machine learning and more particularlydealswiththeparametrizationofRandomForests,whichareclassifierensemble methods that use decision trees as base classifiers. We focus on two important parameters of the forest induction : the number of features randomly selected at each node and the number of trees. We first show that the number of random features has to be chosen regarding to the feature space properties, and we propose hence a new algorithm called Forest-RK that exploits those properties. We then show that a static induction process implies that some of the trees of the forest make the ensemble generalisation error decrease, by deteriorating the strength/correlation compromise. We finaly propose an original random forest dynamic induction algorithm that favorably compares to static induction processes.

Abstract FR:

Les travaux de cette thèse se situent dans le domaine de l’apprentissage automatique et concernent plus particulièrement la paramétrisation des forêts aléatoires, une technique d’ensembles de classifieurs utilisant des arbres de décision. Nous nous intéressons à deux paramètres importants pour l’induction de ces forêts : le nombre de caractéristiques choisies aléatoirement à chaque noeud et le nombre d’arbres. Nous montrons d’abord que la valeur du premier paramètre doit être choisie en fonction des propriétés de l’espace de description, et proposons dans ce cadre un nouvel algorithme nommé Forest-RK exploitant ces propriétés. Nous montrons ensuite qu’avec un processus statique d’induction de Forêts, certains arbres provoquent une diminution des performances de l’ensemble, en dégradant le compromis force/corrélation. Nous en déduisons un algorithme d’induction dynamique particulièrement performant en comparaison avec les procédures d’induction statique.