thesis

Stability and selection of the number of groups in unsupervised clustering : application to the classification of triple negative breast cancers

Defense date:

Dec. 18, 2020

Edit

Disciplines:

Abstract EN:

In this thesis, I treat the topic of classifying Triple Negative Breast Cancer (TNBC) tumors from a statistical point of view. After proposing a classification of TNBC based on proteins, I mainly focus on the use of cluster stability for selecting the number of groups in unsupervised clustering. Indeed, this is the method generally employed when classifying TNBC. The aim of this method is to obtain a classification that is robust, that is, easily replicable on similar data. This is measured by its sensibility to small changes, such as subsamplig of the dataset.Despite the popularity of this method, little is still known about how or when it works. For this reason, I propose two important methodological contributions, increasing the usability and interpretability of this method: (1) an R-package, clustRstab, that easily enables to estimate the stability of a clustering in different parameter settings. This package is accompanied by a simulation and an application study investigating when and how this method works. (2) A Modified version of the Adjusted Rand Index (ARI), a popular score for cluster comparisons which is a crucial step for estimating the stability of a clustering. I correct this score by basing it on a multinomial distribution hypothesis which enables it to take into account dependence between clusterings and conduct statistical inference. This Modified ARI (M ARI) is implemented in the R package texttt{aricode}.These two methods are then applied to a large cohort of TNBC tumors and the results are discussed in relation to earlier classification results of TNBC.

Abstract FR:

Dans cette thèse, je traite, d'un point de vue statistique, le sujet de la classification des tumeurs du cancer du sein triple négatif (TNBC). Je me concentre principalement sur l'utilisation de la stabilité des clusters pour sélectionner le nombre de groupes dans le clustering, la méthode généralement utilisée pour la classification des TNBC. L'objectif de cette méthode est d'obtenir une classification robuste, c'est-à-dire facilement reproductible sur des données similaires.Malgré sa popularité, on sait encore peu de choses sur la façon dont cette méthode fonctionne. Pour cette raison, je propose deux contributions méthodologiques importantes : (1) un package R, clustRstab}, qui permet d'estimer, de manière flexible, la stabilité d'un clustering avec différents paramètres. Ce package est accompagné d'une étude de simulation et d'une étude d'application qui examine sous quelles conditions cette méthode fonctionne. (2) Une version modifiée de la version Ajusté du Rand Index (ARI), un score populaire pour les comparaisons de clusters, étape cruciale pour estimer la stabilité d'un clustering. Je corrige ce score en le basant sur une hypothèse de distribution multinomiale qui lui permet de prendre en compte la dépendance entre les clusters et de faire des inférences statistiques. Ce ARI modifié (M ARI) est implémenté dans le package R aricode. Ces deux méthodes sont ensuite appliquées à une large cohorte de tumeurs TNBC et les résultats sont discutés en relation avec des résultats des classification du TNBC de la littérature.