thesis

Variable importance measures in semiparametric and high-dimensional models with or without error-in-variables

Defense date:

Dec. 11, 2020

Edit

Institution:

Paris Est

Disciplines:

Directors:

Abstract EN:

During the last few decades, the advancements in technology we witnessed have considerably improved our capacities to collect and store large amount of information. As a consequence, they enhanced our data mining potential. The repercussions, on multiple scientific fields, have been stark. In statistical analysis for example, many results derived under the then common low dimensional framework, where the number of covariates is smaller than the size of the dataset, had to be extended. The literature now abounds with significant contributions in high dimensional settings. Following this path, the current thesis touches on the concept of variable importance that is, a methodology used to assess the significance of a variable. It is a focal point in today’s era of big data. As an example, it is often use for prediction models in high dimensional settings to select the main predictors. Our contributions can be divided in three parts.In the first part of the thesis, we rely on semiparametric models for our analysis. We introduce a multivariate variable importance measure, defined as a sound statistical parameter, which is complemented by user defined marginal structural models. It allows one to quantify the significance of an exposure on a response while taking into account all other covariates. The parameter is studied through the Targeted Minimum Loss Estimation (TMLE) methodology. We perform its full theoretical analysis. We are able to establish consistency and asymptotic results which provide as a consequence p-values for hypothesis testing of the parameter of interest. A numerical analysis is conducted to illustrate theoretical results. It is achieved by extending the implementation of the TMLE.NPVI package such that it is able to cope with multivariate parameter.In the second part, we introduce a variable importance measure which is defined through a nonparametric regression model under a high dimensional framework. It is partially derived from the parameter described in the first part of the thesis, without the requirement that the user provides a marginal structural model. The regression model comes with the caveat of having a data structure which, in some cases, is subject to measurement errors. Using a high-dimensional projection on an orthonormal base such as Fourier series, smoothing splines and the Lasso methodology, we establish consistency and the convergence rates of our estimators. We further discuss how these rates are affected when the design of the dataset is polluted. A numerical study, based on simulated and on financial datasets, is provided.In the third and final part of this thesis, we consider a variable importance measure defined through a linear regression model subject to errors-in-variables. This regression model was derived in the previous chapter. The estimation of the parameter of interest is done through a convex optimization problem, obtained by projecting the empirical covariance estimator on the set of symmetric non-negative matrices, and using the Slope methodology. We perform its complete theoretical and numerical analysis. We establish sufficient conditions, rather restrictive on the noise variables, under which to attain optimal convergence rates for the parameter of interest and discuss the impact of measurement errors on these rates

Abstract FR:

Les progrès technologiques de ces dernières décennies ont considérablement accru nos capacités à collecter et sauvegarder une quantité importante d’information. Les répercussions, sur de nombreux domaines scientifiques, ont été fulgurantes. En analyse statistique par exemple, de nombreux résultats obtenus sous le canevas habituel d’étude en petite dimension, ont dû être étendus. La littérature scientifique abonde maintenant de nombreux résultats qui ont été mis en exergue, en prenant en compte cette nouvelle réalité qu’est la présence des données en grande dimension. Nos travaux s’inscrivent dans cette droite lignée. En effet, cette thèse aborde le concept d’importance de variables, c’est-à-dire un canevas permettant de déterminer la portée d’une variable. Il s’agit là d’un point crucial dans cette nouvelle ère de données de grande taille. À titre d’exemple, ce concept est largement utilisé dans des modèle de prédiction afin d’améliorer le choix des variables explicatives. Nos contributions peuvent être divisées en trois parties.Dans la première partie, nous introduisons une mesure multivariée dénommée mesure de l’importance de variable, définit en tant que paramètre statistique, assujettie à des modèles de structures marginaux. Nous nous sommes appuyés sur des modèles semi-paramétriques pour son analyse. Cette mesure permet notamment de quantifier la pertinence d’une variable explicative sur une réponse, en prenant en compte le reste des variables du problème. Le paramètre d’intérêt est étudié grâce à la méthode du TMLE (Tartgeted Minimum Loss Estimation). Nous effectuons son analyse théorique complète et sommes ainsi en mesure d’établir la consistance de notre estimateur, ainsi que sa convergence asymptotique. Ce dernier résultat nous permet donc de déduire les intervalles de confiance liés à l’estimateur. Nous effectuons également une analyse numérique afin d’illustrer nos résultats théoriques. A cet effet, nous avons étendu l’implémentation du package TMLE.NPVI, de telle sorte qu’il puisse traiter des cas où le paramètre d’intérêt est multivarié.Dans la seconde partie de cette thèse, nous introduisons une mesure de l’importance de variable définie au travers d’un modèle de régression non-paramétrique en grande dimension. Cette mesure provient en partie de celle introduite dans la première partie, sans la contrainte supplémentaire que l’utilisateur doive fournir un modèle de structure marginal. Au delà, nous considérons également le cas où les données de notre échantillon sont polluées.En s’appuyant sur une décomposition finie sur une base orthonormée du type basede Fourier ou Splines par exemple, et en utilisant la méthode dite du Lasso, nous établissons les vitesses de convergence de notre estimateur. Nous mettons aussi en exergue l’impact des erreurs de mesure, dans notre design, sur ces vitesses de convergence. Au-delà nous proposons également une étude numérique basée sur des données synthétiques et une application, s’appuyant sur des données financières réelles.Dans la troisième et dernière partie, nous considérons une mesure d’importance de variable définie grâce à un modèle de régression linéaire soumis à des erreurs de mesure sur son échantillon. Ce modèle de régression trouve son origine dans la partie précédente. L’estimation de notre paramètre d’intérêt s’effectue au travers d’un problème d’optimisation convexe, obtenu en projetant la covariance empirique du design sur l’ensemble de matrices définies positives, et en utilisant la pénalisation Slope. Nous effectuons ainsi une analyse théorique et numérique complète. Au delà, nous établissons les conditions suffisantes, assez restrictives concernant les erreurs, à respecter afin d’atteindre des vitesses optimales de convergence de notre paramètre d’intérêt, tout en mettant l’accent sur l’impact de la pollution de notre échantillon sur ces vitesses