thesis

Approches statistiques pour l'analyse de données des puces à ADN

Defense date:

Jan. 1, 2002

Edit

Directors:

Abstract EN:

CDNA microarrays are a method for measuring simultaneously the expression levels of thousands of genes. In this work, we consider statistical methods for gene expression data analysis. After the normalization step, two problems can be considered: first the determination of a statistically significant change in gene expression between two experimental conditions and second the analysis of gene expression profiles. Data variability is one of the main difficulties that led us to develop specific methods. To detect differentially expressed genes, we describe the need for experimental replication to robustify the analysis. First, analysis of variance is investigated to determine which factors of variability are relevant. An ongoing work considers more complex approach that introduces different variance components. In this model, gene expression levels are represented by linear mixed models. In a next step, in order to account for data variability in gene expression profiles clustering, we propose to properly exploit the data repetitions. Repeated data clustering is an approach to isolate error measurements from covariable random effects. Our approach is based on mixed model mixture. For each class, statistic units can be characterized by different mixed models and several mixture models are considered. Within a probabilistic framework, the problem of selecting a particular mixed model mixture is solved minimizing information criteria.

Abstract FR:

Les puces à ADN permettent d'étudier simultanément le niveau d'expression de plusieurs milliers de gènes. Ce travail est consacré à l'étude et au développement de méthodes statistiques pour l'analyse de données de puces à ADN. Une fois les données normalisées, on distingue deux problématiques : la recherche de gènes différentiellement exprimés entre deux conditions expérimentales et l'étude de profils d'expression. En raison de la variabilité expérimentale importante, des méthodes statistiques appropriées doivent être mises en place. Concernant l'identification de gènes différentiellement exprimés, nous montrons la nécessité de disposer de répétitions pour une analyse robuste. L'analyse de variance apparaît dans un premier temps une approche naturelle permettant de prendre en compte différents facteurs de variabilité. Une méthode plus complexe consisterait à introduire différentes composantes de la variance, en représentant les niveaux d'expression des gènes par des modèles linéaires mixtes. La classification de profils d'expression est abordée avec pour objectif de prendre en compte les problèmes de variabilité. La classification de données répétées permet de séparer pour chaque classe la variabilité due aux erreurs de mesure des effets aléatoires liés à des covariables. Notre approche est basée sur des modèles de mélange de modèles linéaires mixtes. Les unités statistiques d'une classe peuvent être caractérisées par différents modèles mixtes et plusieurs modèles de mélange sont envisagés. Choisissant un cadre probabiliste pour le problème de classification, la question du choix de modèle et du nombre de classes est résolue à l'aide de critères d'information.