thesis

Détection des duplications en tandem au niveau nucléique à l'aide de la théorie des flots

Defense date:

Jan. 1, 2011

Edit

Institution:

Toulouse 3

Disciplines:

Authors:

Abstract EN:

After a quick introduction to molecular biology and more specifically tandem duplications, the thesis presents an overview of existing tools for detecting large scale homologuous regions, witha focus on anchor chaining methods. The thesis introduces a new graph-based general modelling formalism. A new chaining method, which is able to produce an optimal set of chains that satisfies specific consistency constraints that aim at easier interpretation is described, using minimum cost flow theory. This method is evaluated on segmental duplications detection in plants and then integrated in a pipeline targeted at tandem duplication detection directly from DNA. This tool is evaluated on the Arabidopsis thaliana genome and compared to the annotation, showing that it is able to detect tandem duplicated regions involving non coding elements.

Abstract FR:

Après un rappel des notions fondamentales de biologie moléculaire et plus particulièrement des duplications en tandem, la thèse présente un panorama des outils existants permettant de détecter des régions homologues à grande échelle, en se focalisant sur les méthodes de chaînage d'ancres. Le document introduit alors un formalisme général de modélisation basé sur les graphes. Une nouvelle méthode de chaînage, capable de produire un ensemble de chaînes de score optimal et satisfaisant des contraintes de cohérences assurant une interprétation aisée des résultats est formulée, en exploitant la théorie des flots de coût minimum. Cette méthode est évaluée sur des problèmes de détection de duplications segmentales chez les plantes puis intégrée dans un pipeline de détection de grande régions dupliquées en tandem directement à partir de la séquence génomique. Cet outil est évalué sur le génome de la plante modèle Arabidopsis thaliana et confronté à l'annotation du génome, montrant ses capacités à détecter des régions dupliquées impliquant des éléments non-codants.