Comparaisons de génomes avec gènes dupliqués : étude théorique et algorithmes
Institution:
NantesDisciplines:
Directors:
Abstract EN:
Comparative genomics is a central problem in bioinformatics and provides answers to biologists, which have to analyse huge amounts of datas. In this thesis, we are interested in computing measures between two genomes with duplicated genes and, more particularly, we investigate breakpoint, adjacency, common interval and conserved interval based measures. We first present some theoretical results by proving the NP-Completeness or the APX-Hardness of the studied problems. We then propose several methods to compute distances between two genomes : (i) an exact approach based on a transformation into a pseudo-boolean problem (ii) a heuristic (iii) a hybrid method using the exact method and the previous heuristic. We next show their respective qualities on a real benchmark. Finally, we give a general approach to compute common intervals and highlight their functional aspects
Abstract FR:
La génomique comparative est un problème central en bio-informatique et permet d'aider les biologistes face à la masse des données accumulées. Dans ce mémoire, nous nous intéressons au calcul de mesures entre deux génomes en présence de gènes dupliqués, et plus particulièrement aux mesures a base de de points de cassure, d'adjacences, d'intervalles communs et d'intervalles conservés. Suivant une démarche informatique, nous proposons tout d'abord nos travaux portant sur la complexité algorithmique des problèmes rencontrés, en prouvant soit leur NP-Complétude soit leur APX-Difficulté. Par la suite, nous exposons plusieurs méthodes de calcul de mesures entre deux génomes, à savoir (i) une approche exacte basée sur une transformation en un problème de contraintes à variables booléennes, (ii) une heuristique et (iii) une méthode hybride se reposant sur la méthode exacte et l'heuristique proposée. Par une étude sur un jeu de données réel, nous montrons les qualités respectives de ces méthodes. Enfin, nous proposons un protocole de calcul des intervalles communs et mettons en évidence, par son utilisation et par un outil de visualisation, l'aspect fonctionnel des intervalles communs