thesis

Tests et sélection de modèles pour l'analyse de données protéomiques et transcriptomiques

Defense date:

Jan. 1, 2007

Edit

Institution:

Paris 11

Disciplines:

Authors:

Abstract EN:

The techniques for gathering data expression for a large number of genes or proteins have grown in recent years. The purpose of this thesis is to provide statistical methods appropriate to treat these data. The first part concerns the differential analysis of proteomic data obtained from bidimensional electrophoresis. The aim is to detect the proteins whose abundance differs according to the experimental condition. When we compare simultaneously more than two conditions, this comes to detect the non-zero components of the mean of a Gaussian vector whose components are not independent and whose dependence structure is known. We propose a model selection approach based on the minimization of a penalized least squares criterion. The two other parts of the thesis concern Gaussian graphical models, that can be used to desribe interactions between genes. In the second part we propose a study based on simulations to compare the performances of several methods of graph estimation. In the third part we propose a test of graph. Indeed, biologists often have a previous knowledge of the genetic network and may want to assess the quality of their model thanks to gene expression data. To this aim we constructed a procedure for testing the neighborhoods of the nodes of the graph. Our procedure is based on the test of a linear hypothesis in a Gaussian linear regression in random Gaussian design.

Abstract FR:

Les techniques permettant de recueillir des données d'expression pour un grand nombre de gènes ou protéines se sont développées ces dernières années. L'objet de cette thèse est de contribuer à l'apport de méthodes statistiques adaptées pour traiter ces données. Une première partie est consacrée à l’analyse différentielle de données protéomiques obtenues à partir d’images d’électrophorèse. Il s’agit de détecter les protéines dont l’abondance diffère selon différentes conditions expérimentales. Dans le cas où l’on compare plus de deux conditions simultanément, l’analyse différentielle consiste à détecter les composantes non nulles de l’espérance d’un vecteur gaussien dont les composantes ne sont pas indépendantes et dont la structure de dépendance est connue. Nous proposons une approche de type "sélection de modèles" basée sur la minimisation d'un critère des moindres carrés pénalisés. Les deux autres parties de la thèse concernent les modèles graphiques gaussiens, qui peuvent être utilisés pour décrire les réseaux d’interactions entre gènes. Dans la deuxième partie, nous présentons une étude basée sur des simulations afin de comparer les performances de plusieurs méthodes d'estimation de graphe. Dans la troisième partie nous proposons un test de validation de graphe. Les biologistes ont en effet souvent une bonne connaissance des relations directes entre gènes et nous proposons de tester si le graphe qui s'en déduit est correct. Pour cela nous construisons un test de voisinage de chaque sommet du graphe. Notre procédure est basée sur le test d'une hypothèse linéaire dans un modèle de régression multivariée dont les variables explicatives sont aléatoires.