thesis

Aspects algorithmiques des réarrangements génomiques : duplications et ordres partiels

Defense date:

Jan. 1, 2009

Edit

Institution:

Paris 11

Disciplines:

Abstract EN:

Comparative genomics aims to better understand differences between species. Several methods for genome comparison exist; in this PhD, we have focused on the computation of three measures of (dis)similarities, namely the number of adjacencies, the number of breakpoints, and the number of commons intervals. In presence of duplicated genes or when the order of genes is only partially known, computing these measures is a NP-hard problem. Our contribution is twofold. First, we want to compute the number of adjacencies and the number of breakpoints for three models (exemplar, maximum and the intermediate model introduced in this work) between two genomes with duplications. In order to obtain exact results, we have used a pseudo-boolean programming approach. After a test on 12 genomes of γ-proteobacteria, we got enough results to compare different combinations of measure/model. Additionally, we have proposed and evaluated (thanks to the above-mentioned results) a family of heuristics based on a search of a longest common subsequence, which gave very good results on these data. In parallel, we proved that there exists no approximation algorithm (unless P=NP) to compute the number of adjacencies (on the exemplar model) and the number of breakpoints (on the exemplar and intermediate models). SECOND, WE SET UP A PSEUDO-BOOLEAN APPROACH TO COMPUTE THE NUMBER OF ADJACENCIES AND THE NUMBER OF COMMON INTERVALS BETWEEN TWO PARTIALLY ORDERED GENOMES. USING NEARLY 800 SIMULATED GENOMES, WE HAVE STUDIED THE INFLUENCE OF PARAMETERS ASSOCIATED TO PARTIAL ORDERS AND COMPARED BOTH MEASURES.

Abstract FR:

La génomique comparative est une discipline importante pour la compréhension de l'évolution du vivant. Différentes méthodes de comparaison de génomes existent, nous nous intéressons ici en particulier au calcul de 3 mesures de (dis)similarités : les nombres d'adjacences, de points de cassure et d'intervalles communs. En présence de gènes dupliqués ou lorsque l'ordre des gènes n'est que partiellement connu, calculer ces mesures est un problème connu pour être NP-difficile. D'une part, nous désirons calculer les nombres d'adjacences et de points de cassures pour trois modèles (exemplaire, maximum et le modèle intermédiaire introduit dans cette étude) entre deux génomes possédant des duplications. Dans le but d'obtenir des résultats exacts, nous utilisons dans cette thèse une approche par programmation pseudo-booléenne. Après expérimentation sur 12 génomes de γ-protéobactéries, nous obtenons assez de résultats pour évaluer les différentes combinaisons mesure/modèle. De plus, nous proposons et évaluons (à l'aide des précédents résultats) une famille d'heuristiques basée sur une recherche de plus longue sous-séquence commune qui donne de très bons résultats sur ces données. Parallèlement à cela, nous prouvons que pour différents problèmes de calcul de mesures entre deux génomes avec duplication, aucune approximation en temps polynomial n'est possible. D'autre part, nous mettons en place une approche pseudo-booléenne pour calculer les nombres d'adjacences et d'intervalles communs entre deux génomes partiellement ordonnées. à l'aide de près de 800 genomes simules, nous étudions l'influence de paramètres inhérents aux ordres partiels et nous comparons les deux mesures etudiées.