thesis

Bornes de risque, détection de ruptures, boosting : trois thèmes statistiques autour de CART en régression

Defense date:

Jan. 1, 2002

Edit

Institution:

Paris 11

Disciplines:

Authors:

Directors:

Abstract EN:

This thesis is dedicated to three statistical topics about CART (Classification And Regression Trees), which has been proposed by Breiman, Friedman, Olshen and Stone in 1984. CART is a non-linear estimation method for classification and regression problems. It provides piecewise constant estimators on partitions obtained, from the data, by recursive dyadic splitting of the explanatory variables space. We focus on CART for regression. After the first charter displaying the thesis, we recall in charter 2 the basements of CART, in which the minimisation of some penalized mean square criterion is performed. The following charters present the original works of the thesis. In charter 3, the most theoretical part, we justify the choice of the penalty term used in the penalized criterion via the achievement of some non-asymptotic risk bounds for the estimators provided by CART. In charter 4, to detect multiple change-points in the mean of a Gaussian signal having large size, we propose a fast algorithm combining CART (which is non-exhaustive) with some method involving an exhaustive search : CART first provides a collection of change-points, in which some good candidates are then selected with the exhaustive search. In charter 5, we apply to CART the Boosting algorithm (Drucker 1997), which is based on adaptive resampling methods. It appears that, on simulated and real data sets, this algorithm behaves the same way as Boosting for classification, which have been already analysed (Breiman 1998). One of the main properties to make such resampling schemes effective is the instability of CART. So we define two instability indices, based on Bagging (Breiman 1996), permitting to clarify the Boosting performance and to analyse various issues such that the detection of outliers for example.

Abstract FR:

Cette thèse est consacrée à trois thèmes statistiques autour de la méthode CART (Classifiation And Regression Trees) proposée par Breiman et al. En 1984. CART est une méthode d'estimation non-linéaire pour les problèmes de classification et de régression. Elle permet de construire des estimateurs constants par morceaux sur des partitions obtenues, à partir des données, par des découpes dyadiques récursives de l'ensemble des variables explicatives. Nous nous concentrons sur CART en régression. Après le chapitre 1 présentant l'ensemble de la thèse, nous rappelons dans le chapitre 2 les fondements de CART, dans lequel on procède à la minimisation d'un critère des moindres carrés pénalisé. Les chapitres suivants présentent le travail original de la thèse. Dans le Chapitre 3, le plus théorique, nous justifions le choix du terme de pénalité utilisé dans le critère via l'obtention de bornes de risque non-asymptotiques pour les estimateurs fournis par CART. Dans le chapitre 4, pour la détection de ruptures dans la moyenne d'un signal gaussien de grande taille, nous proposons un algorithme rapide combinant CART (non-exhaustif) avec une méthode de recherche exhaustive: CART fournit d'abord un ensemble de ruptures, dans lequel on sélectionne ensuite de bons candidats par la recherche exhaustive. Dans le chapitre 5, nous appliquons à CART l'algorithme Boosting (Drucker 1997), basé sur des méthodes de rééchantillonnage adaptatif. Nous mettons en évidence que cet algorithme se comporte, sur des données tant simulées que réelles, de façon semblable au Boosting en classification, celui-ci ayant déjà été analysé (Breiman 1998). L'une des propriétés essentielles pour que de tels schémas de rééchantillonnage fonctionnent est l'instabilité de CART. Nous définissons donc deux indices d'instabilité, basés sur le Bagging (Breiman 1996), permettant d'éclairer les performances du Boosting et d'étudier divers problèmes comme par exemple la détection des valeurs aberrantes.