thesis

Extension des modèles stochastiques de substitution de nucléotides et son implémentation informatique

Defense date:

Jan. 1, 2011

Edit

Institution:

Strasbourg

Disciplines:

Directors:

Abstract EN:

A first stochastic evolution model of genes was developed by Jukes and Cantor in 1969. One substitution type per nucleotide is taken into account with this model. It was then generalised, in particular with two (Kimura 1980) and three substitution parameters per nucleotide (Kimura 1981). An extension of these models to genetic motifs of size 2 (dinucleotides) and 3 (trinucleotides) was proposed by Frey and Michel in 2006 and Michel in 2007. These extended models allow to study evolution of occurrence probabilities of genetic motifs, both in direct (past-present) and inverse (present-past) evolutionary directions, thanks to analytical solutions computed according to substitution parameters. In this work, we first focused on the extension of these stochastic substitution models for nucleotides, dinucleotides and trinucleotides to genetic motifs of any size, by using a new approach based on Kronecker's operations. A second part was dedicated to the development of a research software SEGM (Stochastic Evolution of Genetic Motifs) allowing the computation of analytical occurrence probabilities of genetic motifs of size 1 to 5 and evolution plots of these motifs. We present an application of these analytical stochastic models to the inverse evolution of splice sites of human genomes introns. In a third part, we developed a numerical stochastic evolution model for trinucleotides with dynamic substitution blockings. We present an application of this model to the inverse evolution of the universal circular code X0 (codon set) discovered in 1996 by Arquès and Michel in eukaryotic and prokaryotic genes.

Abstract FR:

Le premier modèle stochastique d'évolution de gènes a été développé par Jukes et Cantor en 1969. Ne prenant en compte qu'un paramètre de substitution par nucléotide, il a ensuite été généralisé, notamment avec les modèles à deux (Kimura 1980) et trois paramètres de substitution (Kimura 1981). Plus tard, ces modèles ont été étendus aux dinucléotides et trinucléotides (Frey et Michel 2006 ; Michel 2007). Ces derniers permettent d'étudier l'évolution des probabilités d'occurrence de motifs génétiques au cours du temps dans les deux sens d'évolution direct (passé-présent) et inverse (présent-passé), à l'aide de solutions analytiques fonctions de paramètres de substitution. Dans ce travail, nous nous sommes intéressés dans un premier temps à l'extension de ces modèles stochastiques de substitution de nucléotides, dinucléotides et trinucléotides à des motifs génétiques de taille quelconque en proposant une nouvelle approche basée sur les opérateurs de Kronecker. Nous avons également consacré une partie au développement d'un logiciel de recherche SEGM (Stochastic Evolution of Genetic Motifs) permettant le calcul de probabilités d'occurrence analytiques de motifs génétiques de taille 1 à 5 et de courbes d'évolution de ces probabilités. Nous avons réalisé une étude évolutive inverse des sites d'épissage des introns du génome humain en utilisant notamment SEGM. Dans une troisième partie, nous avons développé un modèle stochastique numérique d'évolution de trinucléotides avec blocage dynamique des substitutions, puis nous l'avons appliqué à l'évolution des codons du code circulaire universel X0 découvert dans les gènes d'eucaryotes et de procaryotes en 1996 par Arquès et Michel.