thesis

Signification statistique du score local d'alignement de séquences biologiques

Defense date:

Jan. 1, 2007

Edit

Institution:

Toulouse 2

Disciplines:

Directors:

Abstract EN:

This thesis concerns the problem of assessing the statistical significance of the outcomes from the similarities of biological sequences. In this thesis, we are interested in optimizing local alignment. A local alignment expresses the similarities by giving the parts of sequences which are similar. If the methods (like BLAST) are appropriate for long sequences, in this thesis, we propose two new p-values stood on the exact means as follows that do not rely on asymptotics: 1. P-value relied on h-tuple approach: our method stands on combining an adapted scoring scheme that includes the gaps and an approximate distribution of the ungapped local score of two independent sequences. The new scoring scheme is defined on h-tuples of the sequences using the gapped global score. The influence of h and the accuracy of the p-value are numerically studied and compared with obtained p-value of BLAST. The numerical experiments emphasize that our approximate p-values outperform the BLAST ones for both simulated and real short sequences. 2. New p-value by improving Greedy Extension Model: this p-value stands on an approximation of Poisson whose parameter is to estimate. In this thesis, we estimate this parameter from the exact methods that results more accurate p-value. We illustrate our purpose by simulations.

Abstract FR:

Cette thèse est consacrée à l’évaluation de la signification statistique pour la comparaison de séquences biologiques. Nous nous intéressons ici à l'optimisation d’alignements locaux. Un alignement local exprime les similitudes en révélant les parties des séquences qui sont semblables. Si, les méthodes usuelles (telles que BLAST) sont appropriées aux longues séquences, dans cette thèse, nous proposons deux nouvelles p-valeurs basées sur des méthodes exactes hors du cadre asymptotique : 1. La p-valeur basée sur l’approche des h-uplets : elle combine une distribution approchée du score local sans gaps de deux séquences et une fonction de score spécifique qui permet d’introduire les gaps calculée pour un entier h donné. L'influence de h et la qualité de la p-valeur sont numériquement étudiées et comparées à la p-valeur obtenue par BLAST. Les résultats numériques soulignent que notre p-valeur approchée surpasse celle de BLAST pour des séquences courtes simulées ou réelles. 2. La nouvelle p-valeur obtenue en améliorant le « Greedy Extension model » : elle est basée sur une approximation poissonienne dont le paramètre à estimer. Dans ce travail, nous l’estimons en utilisant des méthodes exactes qui améliorent la précision de la p-valeur. Nous illustrons notre propos par des simulations.