Emploi des chaînes de Markov dérivantes dans l'étude du génome
Institution:
Paris 5Disciplines:
Directors:
Abstract EN:
Pas de résumé disponible.
Abstract FR:
Ce travail de recherche consiste à décrire des modèles statistiques capables d'expliquer au mieux l'hétérogénéité et tenter d'identifier des régions distinctes du génome. Nous travaillons dans trois directions : statistique en utilisant des chaines de Markov, biologique puisque nous appliquons notre modèle à des données réelles et informatique car l'un de nos buts est de créer des outils informatiques à partir de nos modèles statistiques. Depuis quelques années, au sein du laboratoire de statistique médicale de Paris V, un travail de thèse a été poursuivi par le maître de conférence Florence Muri, qui utilise des modèles de chaînes de Markov cachées pour délimiter les régions homogènes de la séquence d'ADN étudiée. Ces modèles supposent l'existence de plages homogènes dont on ignore a priori la taille et la position, et que l'on dispose d'un nombre fini de modèles (typiquement 2, 3 ou 4) qui s'ajustent de façon satisfaisante sur chacune de ces plages. Ici nous cherchons à établir la théorie mathématique et statistique qui permettra de faire évoluer de façon continue la chaine de Markov. On parle de chaines de Markov dérivantes. Pour donner un exemple simple du type de modèle, considérons une matrice de transition de départ 0, une d'arrivée 1 et une matrice de transition t évoluant tout au long de la séquence de taille n selon l'équation suivante : t = (1t/n) 0 + t/n 1. Ainsi nous éviterons les ruptures brutales observées entre deux plages successives dans l'optique chaines de Markov cachées en dérivant continument entre ces deux plages. Notre priorité est bien entendu la meilleure estimation possible de 0 et 1. Nous développons d'abord mathématiquement le modèle, puis nous procédons à des simulations pour assimiler son comportement et l'appliquons enfin sur les deux organismes e. Coli et le phage ou la comparaison de nos résultats avec ceux obtenus grâce aux chaines de Markov cachées a grand intérêt.