Variable selection on non-linear manifolds
Institution:
Aix-MarseilleDisciplines:
Directors:
Abstract EN:
The purpose of this thesis is to investigate the topic of "Variable/Feature Selection", also known as the art of finding non-zero correlations. I explore existing methods, their advantages, connections and limits, and then propose a new method for doing variable selection. The thesis consists of three connected chapters which can however be read independently. In the first chapter, I review the literature on variable selection techniques. I compare them on the ground of their model structure, be it linear, additive or fully non-parametric. Based on this, and the way selection is achieved, I propose a typology of all presented methods. I also provide many references for existing software implementation. In the second chapter, I propose a novel framework for variable selection, in which I consider possibly unobserved latent dependences. These unobserved dependences can be of any functional form, the model is fully non-parametric. This problem is equivalent to having non-linear manifolds in the data. Consequently, I develop a method for selecting variables that are lying on a non-linear manifold. To do so, I propose two versions of variable selection on non-linear manifolds. The first one is based on a local linear estimator, the second one uses a global estimator. In the last chapter, I present an empirical application on financial data. In this context, variable selection highlights the main dependences that exist between the different commodities. I also compare the two proposed methods with existing literature and analyse the results.
Abstract FR:
Le but de cette thèse est d'étudier le thème de la «sélection de variables», également connu comme l'art de trouver des corrélations significatives. J'explore les méthodes existantes, leurs avantages, leurs connexions et leurs limites, puis je propose une nouvelle méthode de sélection de variables. La thèse se compose de trois chapitres connectés qui peuvent cependant être lus indépendamment.Dans le premier chapitre, je passe en revue la littérature sur les techniques de sélection de variables. Je les compare sur la base de leur structure de modèle, qu'elle soit linéaire, additive ou totalement non paramétrique. Sur cette base et sur la manière dont la sélection est réalisée, je propose une typologie de toutes les méthodes présentées. Je fournis également de nombreuses références pour l'implémentation de logiciels existants. Dans le deuxième chapitre, je propose une nouvelle technique de sélection des variables, dans lequel je considère de possible dépendances non observées. Ces dépendances peuvent être de toute forme fonctionnelle, le modèle est totalement non paramétrique. Ce problème équivaut à avoir des variétés non linéaires dans les données. Par conséquent, je développe une méthode pour sélectionner des variables qui reposent sur une variété non linéaire. Je propose deux versions de sélection de variables sur des variétés non linéaires. La première est basée sur un estimateur linéaire local, la seconde utilise un estimateur global. Dans le dernier chapitre, je présente une application empirique sur des données de finance. La sélection des variables met en évidence les principales dépendances qui existent entre ces différents actifs.