thesis

A probabilistic approach for genome assembly from high-throughput chromosome conformation capture data

Defense date:

Jan. 1, 2013

Edit

Institution:

Paris 6

Disciplines:

Directors:

Abstract EN:

Les approches modernes de séquençage d’adn ne permettent pas la lecture de fragments de plus de quelques kb. De ce fait, ont été développés des méthodes algorithmique permettant de former de plus grandes séquences ˆ partir de ces petits fragments. Nous avons développé une nouvelle méthodologie d’assemblage de génome basée sur le HiC. Le HiC est une procédure biochimique permettant l’inférence de la structure tridimensionelle d’un génome. Basée sur des probabilités bayesienne, notre méthode inverse le flux logique d’analyse de ces données. A partir des données 3D nous pouvons détecter et corriger les erreurs d’assemblages. Après avoir décrit le cadre mathématiques de la méthode, nous décrirons les résultats préliminaires obtenus sur des données simulées ainsi que des données expérimentales. En particulier nous montrerons une application concluante de la méthode sur le génome, encore non assemblé de trichoderma reesei, un champignon utilisé dans l’industrie énergÉtique.

Abstract FR:

Computational methods are needed to assemble entire genomes from large numbers of short DNA strands. However, standard algorithms that piece together DNA strands with overlapping sequences face important limitations due, for example, to regions of repeated sequences, thus leaving many genome assemblies incomplete. We set out to develop a new methodology for genome assembly that promises to address some of these limitations. The method is based on Hi-C, a recent biochemical technique initially developed to analyse the 3D architecture of genomes. In standard Hi-C studies, a previously assembled genome is used to identify chimeric sequences among the ligation products, and map them to pairs of chromosomal loci, thereby yielding a genome-wide matrix of contact frequencies. Our method essentially reverses this approach: Hi-C data are used to test for the physical continuity of the chromatin fibre as expected from a set of DNA segments (representing either a complete or incomplete chromosomal set). This procedure improves genome assembly and/or identification of structural variants in re-sequenced genomes. Our approach uses a Bayesian framework that assigns probabilities to different assemblies based on the experimental Hi-C data and on laws describing the physical properties of chromosomes. We will explain the methodology and the developed algorithms and provide results of applications to simulated and real Hi-C data from mutant and natural structural variants of yeast and fungi. We also have developed algorithm that allow us to identify functional sequences in genomes from genome wide contact matrices.