thesis

Supertree methods for phylogenomics

Defense date:

Jan. 1, 2009

Edit

Institution:

Montpellier 2

Disciplines:

Directors:

Abstract EN:

Evolutionary relationships between species can be summarized in the so-called “species tree. Species trees are mainly estimated using gene trees, ie evolutionary trees constructed by analyzing a gene family. However, for both methodological and biological reasons, a gene tree may differ from the species tree. To estimate species tree, biologists then analyze several data sets at a time. This thesis focuses on the “supertree” approach to combine data sets. This approach consists first in constructing trees (commonly called source trees) from primary data, then assembling them into a larger tree, called supertree. When using supertree construction in a divide-and-conquer approach in the attempt to reconstruct the Tree of Life, conservative supertree methods have to be preferred in order to obtain reliable supertrees. In this context, a supertree method should display only information that is displayed or induced by source trees (induction property, PI) and that does not conflict with source trees or a combination thereof (non contradiction property, PC). In this thesis we introduce two combinatorial properties that formalize these ideas. We proposed algorithms that modify the output of any supertree methods such that it verifies these properties. Since no existing supertree method satisfies both PI and PC, we have developed two methods, PhySIC and PhySIC_IST, which directly build supertrees satisfying these properties. Since duplication events often result in the presence of several copies of the same genes in the species genomes, gene trees are usually multi-labeled, ie , a single species can label more than one leaf. Since no supertree method exists to combine multi-labeled trees, until now these gene trees were simply discarded in supertree analyses. In this thesis, we propose several algorithms to extract a maximum amount of speciation signal from multi-labeled trees and put it under the form of single-labeled trees which can be handled by supertree methods

Abstract FR:

Les relations évolutives entre les espèces peuvent être résumées dans un arbre communément appelé “arbre des espèces”. Ces arbres sont principalement estimés en analysant des “arbres de gènes”, ie, des arbres évolutifs construits par l'analyse d'une famille de gènes. Toutefois, pour des raisons méthodologiques et biologiques, un arbre de gènes peut différer de l'arbre des espèces. Pour estimer ce dernier, les biologistes analysent plusieurs jeux de données à la fois. Cette thèse se focalise sur l'approche “super-arbre” pour combiner les jeux de données, qui consiste à construire des arbres “sources” à partir de données primaires puis à les assembler en un arbre plus grand. Au sein d'une approche “diviser pour régner” dans le but de reconstituer l'Arbre de Vie, il est préférable d'utiliser une méthode conservative afin d'obtenir des arbres fiables. Dans ce contexte, une méthode de super-arbre doit afficher seulement des informations présentes ou induites par les arbres sources (propriété d'induction), et qui n'entrent pas en conflit avec ces derniers ou avec une de leurs combinaisons (propriété de non contradiction). Nous avons défini de manière formelle ces deux propriétés et développé un algorithme permettant de modifier un super-arbre afin qu'il les satisfasse. Nous avons également conçu deux méthodes, PhySIC et PhySIC_IST, qui construisent directement des super-arbres satisfaisant ces deux propriétés. Les événements de duplication aboutissent souvent à la présence de plusieurs copies du même gène dans les génomes. Les arbres de gènes sont donc généralement multi-étiquetés, ie, une seule espèce étiquette plusieurs feuilles. Comme aucune méthode n'existe actuellement pour combiner ces arbres, ils sont ignorés dans un approche super-arbre. Dans cette thèse, nous proposons plusieurs algorithmes permettant d'obtenir, à partir d'un arbre multi-étiqueté, un arbre classique contenant un maximum d'informations de spéciation présentes dans l'arbre initial