thesis

Motifs exceptionnels dans des séquences hétérogènes. Contributions à la théorie et à la méthodologie des tests multiples

Defense date:

Jan. 1, 2007

Edit

Institution:

Paris 11

Disciplines:

Directors:

Abstract EN:

The first part of the thesis presents new statistical methods to find words with unexpected frequencies in DNA sequences. The main contribution of this work is to take the sequence heterogeneity into account when assessing the exceptionality of a word. For this, we propose several compound poisson approximations for the count of a rare word in a Markovian heterogeneous model, with a fixed or a random heterogeneity. We also propose methods to test simultaneously the exceptionality of several motifs. This leads to the second part of the thesis, in which we consider the general statistical problem of testing simultaneously a given set of null hypotheses. First, we introduce a "set-ouput" point of view on multiple testing procedures, which gives short proofs for existing false discovery rate (FDR) control results. Second, new procedures are investigated, as adaptive procedures or resampling-based procedures. The latter are derived from general confidence regions and provide a non-asymptotic control of the family-wise error rate (FWER)

Abstract FR:

La première partie de la thèse présente des nouvelles méthodes statistiques pour détecter les motifs de fréquence exceptionnelle dans un génome. La principale contribution de ce travail est de proposer une mesure de l'exceptionnalité d'un motif qui tient compte d'une certaine hétérogénéité dans la séquence. Pour cela, nous établissons plusieurs approximations de Poisson composée pour la loi du comptage d'un motif râre lorsque la séquence suit un modèle markovien hétérogène, avec une hétérogénéité fixe ou aléatoire. Nous proposons aussi des procédures permettant de tester simultanément l'exceptionnalité de plusieurs motifs, ce qui introduit la thématique de la seconde partie de la thèse. Cette dernière est consacrée au problème statistique général consistant à tester simultanément un ensemble d'hypothèses nulles. Nous proposons notamment un nouvel éclairage sur les mathématiques mises en jeu dans les résultats classiques du contrôle du taux moyen de fausses découvertes (FDR), ainsi que de nouvelles procédures par rééchantillonnage pour contrôler non-asymptotiquement la probabilité d'avoir fait au moins une fausse découverte (FWER)