thesis

Modèle d’évolution avec dépendance au contexte et corrections de statistiques d’adéquation en présence de zéros aléatoires

Defense date:

Jan. 1, 2010

Edit

Institution:

Strasbourg

Disciplines:

Authors:

Abstract EN:

In this thesis we study the context-dependent evolution of DNA sequences. In the first part we define a substitution model that not only distinguishes between transitions and transversions, but also allows for leftneighbor dependencies such as the CpG effect. We show that this model can be formulated as a hidden Markov model and we use the Baum-Welch algorithm to perform the parameter estimation. The model is then applied to estimate substitution rates observed in genetic sequences. In the second part we develop corrections for classical goodness of fit test statistics with composite hypotheses for multinomial data in the 1 presence of random zeros. Indeed, independence tests on the evolution of triplets of neighbor nucleotides involve contingency tables with numerous empty cells, and can be written as goodness of fit tests on sparse vectors. Thus, Pearson's and Kullback's statistics cannot be used. From these, we derive corrected statistics that share the sa me asymptotic behavior and apply these corrections to test independence on the evolution of nucleotide sequences. Finally, we propose applications to epidemiological and ecological data.

Abstract FR:

Dans ce travail nous étudions sous deux aspects la dépendance au contexte pour l'évolution par substitution des séquences nucléotidiques. Dans une première partie nous définissons un modèle évolutif simple intégrant la distinction entre transitions et transversions d'une part, et une dépendance des nucléotides à leur voisin de gauche modélisant l'effet CpG d'autre part. Nous montrons que ce modèle peut s'écrire sous la forme d'une chaîne de Markov cachée et estimons ses paramètres par la mise en oeuvre de l'algorithme de Baum-Welch. Nous appliquons enfin le modèle à l'estimation de taux de substitution observés dans l'évolution de séquences génétiques. Dans une deuxième partie nous développons des corrections pour les statistiques classiques du test d'adéquation d'un échantillon à une loi multinomiale en présence de zéros aléatoires. En effet, les tests d'indépendance de l'évolution de triplets de nucléotides voisins impliquent des tables de contingence possédant de nombreuses cases nulles et se ramènent à des tests d'adéquation sur des vecteurs creux. Les statistiques de Pearson et de Kullback ne peuvent alors être employées. A partir de celles-ci, nous considérons des statistiques corrigées qui conservent le même comportement asymptotique. Nous les utilisons pour réaliser des tests d'indépendance, non seulement dans le cadre des données génomiques de la première partie, mais également pour des données écologiques et épidémiologiques