thesis

Analyse computationnelle des éléments cis-régulateurs dans les génomes des drosophiles et des mammifères

Defense date:

Jan. 1, 2013

Edit

Institution:

Paris 7

Disciplines:

Authors:

Directors:

Abstract EN:

Cellular differentiation and tissue specification depend in part on the establishment of specific transcriptional programs of gene expression. These programs result from the interpretation of genomic regulatory information by sequence-specific transcription factors (TFs). Decoding this information in sequenced genomes is a key issue. In a first part, we study the interaction between the TFs and the DNA sequences they bind to, called Transcription Factor Binding Sites (TFBSs). Using a Potts model inspired from spin glass physics along with high-throughput binding data for a variety of Drosophilae and mammalian TFs, we show that TFBSs exhibit correlations among nucleotides and that the account of their contribution in the binding energy greatly improves the predictability of genomic TFBSs. Then, we present Imogene, a Bayesian, phylogeny-based algorithm designed to computationally identify the Cis-Regulatory Modules (CRMs) and their associated regulatory motifs that control gene expression in a set of co-regulated genes in fly or mammalian genomes. In particular, we show that Imogene can perform pattern recognition by distinguishing CRMs with different patterns of expression on the sole basis of their DNA motifs content. Finally, we present applications of these modeling tools to real biological cases: the trichpmes differentiation in Drosophila, and the skeletal muscle differentiation in the mouse. In both cases, predictions were experimentally validated in a joint work with biological teams, and point towards a great flexibility of the cis-regulatory processes.

Abstract FR:

La différenciation cellulaire et la spécification des tissus dépendent en partie de l'établissement de programmes d'expression génétique spécifiques. Ces programmes sont le résultat de l'interprétation de l'information génomique par des Facteurs de Transcription (FTs) se fixant à des séquences d'ADN spécifiques. Décoder ett cette information dans les génomes séquencés est donc un enjeu majeur. Dans une première partie, nous étudions l'interaction entre les FTs et leurs sites de fixation sur l'ADN. L'utilisation d'un modèle de Potts inspiré de la physique des verres de spin et de données de fixation grande échelle pour plusieurs FTs de la drosophile et des mammifères permet de montrer que les sites de fixation exhibent des corrélations entre nucléotides et que leur prise en compte permet d'améliorer considérablement la prédiction des sites de fixations sur le génome. Nous présentons ensuite Imogene, un algorithme bayésien utilisant la. Phylogénie qui permet d'identifier chez la drosophile ou les mammifères les motifs et modules de cis-régulation contrôlant l'expression d'un ensemble de gènes co-régulés. En particulier, nous montrons qu'Imogene peut distinguer des modules de régulation conduisant à différents motifs d'expression génétique sur la seule base de, leur séquence ADN. Enfin, nous présentons des applications de ces outils de modélisation à des cas biologiques réels : la différenciation des trichomes chez la drosophile, et la différenciation musculaire chez la souris. Dans les deux cas, les prédictions ont été validées expérimentalement en collaboration avec des équipes de biologistes, et pointent vers une grande flexibilité des processus de cis-régulation.