Grandes deviations et chaines de markov pour l'etude des occurrences de mots dans les sequences biologiques
Institution:
Evry-Val d'EssonneDisciplines:
Directors:
Abstract EN:
Pas de résumé disponible.
Abstract FR:
On peut assimiler l'information contenue dans l'adn d'un organisme a une longue sequence ecrite dans un alphabet a quatre lettres : a, c, g et t. Certains mots ou motifs que l'on trouve dans ces sequences interviennent directement dans des mecanismes biologiques. Du fait de la pression de la selection, il est naturel de relier le caractere exceptionnels de ces mots a leurs frequences d'apparition. On utilise l'outil statistique des grandes deviations pour mesurer la significativite du comptage d'un mot ou d'un motif dans un texte suppose aleatoire et genere selon une chaine de markov d'un ordre donne. Grace a des algorithmes numeriques performants (brent, arnoldi, descente du gradient), les resultats theoriques de grandes deviations de niveaux 1 et 2 sont utilises par le programme gdon pour effectuer les calculs pour motif de taille h en o(k h) en temps et en espace. La comparaison des resultats de gdon avec ceux d'autres methodes asymptotiques (approximations gaussiennes et poissoniennes) ou exactes montre la grande qualite des approximations obtenues en ce qui concerne les evenements rares. De plus, divers exemples biologiques concrets sont etudies par le biais de ce programme et les resultats obtenus sont coherents avec les connaissances biologiques des mecanismes qui leurs sont lies. La demarche inverse, c'est a dire la creation d'information a partir des resultats statistiques seuls n'est cependant pas si simple. Un methode de retraitement automatique des resultats par le biais d'alignement est dans ce but envisagee et se fixe pour objectif de distinguer les mots veritablement significatifs du point de vue biologique de ceux dont la nature exceptionnelle est due a l'evolution.