Reconstruction phylogénétique par analyse bayésienne des séquences moléculaires
Institution:
Montpellier 2Disciplines:
Directors:
Abstract EN:
Two non stationary and non parametric models for probabilistic phylogenetics have been developped. According to these models, a continuous stochastic process introduces variations of the stationary probabilities of the Markovian substitution process, inducing a free dimensionality. The second model combines the previous non stationary formalism with a mixture of substitution processes distributed among sites. This combination jointly accounts for evolutionary process variations both across sequences and along time, induced respectively by biochemical constraints applied to sites, and by compositional drifts. The two models have been implemented in a Markov Chain Monte Carlo (MCMC) framework and are available for the community. They appear robust against several reconstruction artefacts and their respective behaviors moreover suggest a new interpretation of long branch attraction (LBA) artefacts. This thesis concludes with some theoretical perspectives related to necessary improvements of the models, concerning the algorithmic complexity of the MCMC sampling, and the accuracy of the inference
Abstract FR:
Deux nouveaux modèles pour la reconstruction phylogénétique probabiliste ont été développés, non stationnaires et non paramétriques. Selon ces modèles, un processus stochastique continu introduit des variations des probabilités stationnaires des processus Markoviens de substitution, induisant de manière inédite une dimensionnalité libre. Le second modèle combine cette composante non stationnaire avec un modèle de mélange défini sur les positions de l'alignement de séquences homologues. Cette combinaison modélise conjointement les variations du processus d'évolution, au cours du temps, et le long des séquences, lesquelles résultent respectivement des contraintes biochimiques appliquées aux sites, ainsi que des dérives compositionnelles. Ces deux modèles ont été implémentés dans un cadre Chaînes de Markov Monte Carlo (MCMC) et mis à disposition de la communauté des phylogénéticiens. Les modèles se sont avérés robustes contre plusieurs artefacts phylogénétiques et leurs comportements respectifs suggèrent de plus une interprétation nouvelle des artéfacts d'attraction des longues branches (LBA). La thèse présente enfin une série de perspectives théoriques portant sur les améliorations encore nécessaires, tant en terme de complexité algorithmique de l'échantillonnage MCMC, que de qualité des inférences