Statistiques des scores pour l'analyse et la comparaison de séquences biologiques
Institution:
RouenDisciplines:
Directors:
Abstract EN:
Pas de résumé disponible.
Abstract FR:
La comparaison de deux séquences biologiques joue un rôle primordial dans l'analyse des données issues de la biologie moléculaire. Pour effectuer ces comparaisons, nous attribuons des pondérations, appelées scores, aux différents couples de composants de ces séquences (nucléotides ou acides aminés) et recherchons la ou les régions qui correspondent au score maximal, appelé score local. Le problème statistique est de tester si le score calculé est significatif ou non, afin de mettre en évidence un lien biologique éventuel entre les séquences. Le but principal de cette thèse consiste à étudier la distribution du score local. Pour cela, nous modélisons les séquences par une suite de variables aléatoires indépendantes et identiquement distribuées à valeurs dans Z. Nous nous plaçons tout d'abord sous l'hypothèse de scores négatifs en moyenne. En utilisant la théorie des marchés aléatoires, nous établissons la distribution du maximum des sommes partielles qui se présente comme l'unique distribution invariante d'une chaine de Markov. Cette distribution s'écrit comme la combinaison linéaire de suites récurrentes définies à partir de racines d'un polynôme qui dépend directement de la distribution des scores. Nous tirons de ce résultat une nouvelle approximation asymptotique de la distribution du score local qui améliore numériquement celle donnée par Karlin et al. D'autre part, la distribution du score local est ensuite obtenue en utilisant la théorie des chaines de Markov. Ce résultat, valable pour des scores en moyenne négatifs, positifs ou bien nuls, se présente sous la forme de puissances d'une certaine matrice. On en déduit une approximation pour la distribution du score local de deux séquences avec décalage. Les deux approches étudiées dans cette thèse, sont à la fois différentes et indépendantes l'une de l'autre, ainsi que de celle de Karlin et al. Utilisée dans Blast. Les résultats peuvent être facilement généralises aux cas des suites à dépendance markovienne.