Approches phylogénétiques et bioinformatiques pour l'analyse de la coévolution à l'échelle moléculaire
Institution:
Montpellier 2Disciplines:
Directors:
Abstract EN:
We address here the problem of non-independent evolution between distinct positions (sites) within bio-sequences, namely nucleic acids and proteins. The proposition that sites may not evolve independently -- they are said to be coevolving -- is not a new one and is supported by several biochemical properties of the structure of the molecules. The mechanism of compensatory mutations is usually invoked to explain molecular coevolution: a mutation at one site may compensate the drop in fitness of a (otherwise deleterious) mutation at another site. Several approaches have been already developed to detect coevolving sites from a sequence alignment and have been applied to single data sets. They lead to -- sometimes contradictory -- conclusions that cannot be generalized. These methods also suffer from methodological fuzziness and software deficiencies, which prohibits their use, particularly at the genomic scale. We detail the methodological issues involved in the detection of coevolving sites and present a new detection method. This method is applied to three data sets for which we provide extensive analysis. We show that this method is successful in detecting sites that share a correlated evolutionary history. These sites are also related to the molecules structures and functions. We finally use a genomic approach to characterize the coevolution signal at the genome scale. A 523 genes data set from bacterial complete genomes is built and analyzed. We show that there is a strong coevolution signal for most of these proteins. Crossing these results with structural information will presumably improve our understanding of the mechanisms of molecular (co)evolution
Abstract FR:
Nous abordons dans cette thèse le problème de l'interdépendance entre les différentes positions au sein des bio-séquences, acides nucléiques et protéines. L'idée que les différentes positions d'une molécule (les sites) évoluent de manière non-indépendante (on dit qu'elles coévoluent) est couramment admise, du fait des mécanismes biochimiques qui sous-tendent la structure de ces molécules. Le mécanisme généralement invoqué pour expliquer la coévolution moléculaire est que les molécules subissent des mutations compensatoires: une mutation au niveau d'un site peut compenser la baisse de valeur sélective engendrée par une mutation désavantageuse au niveau d'un autre site. Plusieurs approches ont été proposées afin de mettre en évidence des sites coévoluant à partir d'un alignement de séquences, qui ont été appliquées à des jeux de données spécifiques. Leurs conclusions sont parfois contradictoires et sans degré de généralité. Ces approches souffrent de plus de lacunes méthodologiques et de défaut d'implémentation, ce qui prohibe leur usage, particulièrement à l'échelle génomique. Après avoir éclairci les différents problèmes méthodologiques à prendre en compte, nous présentons une nouvelle méthode de détection. Par l'étude détaillée de trois jeux de données, nous montrons qu'elle permet de mettre en évidence des groupes de sites ayant une histoire évolutive corrélée. Nous mettons également ces sites en relation avec la structure et la fonction des molécules. Nous utilisons finalement une approche génomique pour caractériser la coévolution à l'échelle des génomes, en appliquant la méthode sur 523 jeux de données bactériens. Nous montrons qu'il existe un fort signal de coévolution, dont la mise en relation avec la structure des protéines constitue une perspective à court terme