Robustesse des arbres phylogénétiques
Institution:
Paris 11Disciplines:
Directors:
Abstract EN:
Phylogenetic trees are used daily in many fields of biology, most notably the functional and structural study of genomes. They provide a powerful framework to study evolution but are also an abundant source of statistically challenging issues. Most, if not all, applications of phylogenetics have in common that they require accurate phylogenetic estimates. In general, accurate estimates depend on four factors: (1) appropriate selection of genes, (2) su_cient data size, (3) accurate analytical method, (4) adequate taxon sampling. We present in this thesis four issues directly related to this factors. In the first part, we use concentration inequalities to upper bound the amount of data needed to choose the most accurate of two trees when the analytical model is accurate. Using degworth expansions, we then present a procedure to select congruent genes from a list of target genes. In the second part, we propose two procedures, based on influence function and sensitivity curves, to identify influent nucleotides and taxa, which are likely to impede the inference and lead to non-robust estimates. We show that as few as one nucleotide or taxon can have a drastic impact on the estimates, discuss the biological implication of this result and provide methods to achieve greater robustness of the trees.
Abstract FR:
La théorie synthétique de l’évolution a largement diffusé dans tous les domaines de la biologie, notamment grâce aux arbres phylogénétiques. Ils ont une utilité évidente en génomique comparative, en biodiversité, en épidémiologie ou encore en sciences forensiques. Les arbres phylogénétiques sont non seulement une charactérisation efficace mais aussi un outil puissant pour étudier l’évolution. Cependant, toute utilisation d’arbre dans une étude suppose que l’arbre ait été correctement estimé, au niveau de la topologie et des autres paramètres, alors que cette estimation est un problème statistique compliqué. On admet qu’une bonne estimation nécessite (1) un ou plusieurs gènes pertinents pour la question étudiée, (2) une quantité suffisante de données, (3) une méthode de reconstruction efficace, (4) un bon échantillonnage de taxons. Nous nous intéressons dans cette thèse à quatre thèmes étroitement liés à l’un ou l’autre de ces pré-requis. Dans la première partie, nous étudions le lien entre précision d’estimation et quantité de données à l’aide d’inégalités de concentrations. Nous proposons ensuite une méthode basée sur des extensions de Edgeworth pour tester la congruence phylogénétique de plusieurs gènes. Dans la deuxième partie, nous proposons deux méthodes pour détecter les sites et taxons aberrants. Ces points aberrants peuvent nuire à la robustesse des estimateurs et nous montrons sur des exemples comment quelques observations aberrantes seulement suffisent à drastiquement modifier les estimateurs. Nous discutons les implications de ces résultats et montrons comment augmenter la robustesse de l’estimateur de l’arbre en présence d’observations aberrantes.