thesis

Intégration, interrogation et analyse de données de génomique comparative

Defense date:

Jan. 1, 2008

Edit

Institution:

Paris 11

Disciplines:

Abstract EN:

Our work takes place within the « Microbiogenomics » project. Microbiogenomics aims at building a genomic prokaryotic data warehouse. This data warehouse gathers numerous data currently dispersed, in order to improve functional annotation of bacterial genomes. Within this project, our work contains several facets. The first one focuses mainly on the analyses of biological data. We are particularly interested in the conservation of gene order during the evolution of prokaryotic genomes. To do so, we designed a computational pipeline aiming at detecting the areas whose gene order is conserved. We then studied the relative evolution of the proteins coded by genes that are located in conserved areas, in comparison with the other proteins. This data were made available through the SynteView synteny visualization tool (http://www. Synteview. U-psud. Fr). Moreover, to broaden the analysis of these data, we need to cross them with other kinds of data, such as pathway data. These data, often dispersed and heterogeneous, are difficult to query. That is why, in a second step, we were interested in querying the Microbiogenomics data warehouse. We designed an architecture and some algorithms to query the data warehouse, while keeping the different points of view given by the sources. These algorithms were implemented in GenoQuery (http://www. Lri. Fr/~lemoine/GenoQuery), a prototype querying module adapted to a genomic data warehouse.

Abstract FR:

Nos travaux s’inscrivent dans le projet ANR « Microbiogenomics ». Ce projet a pour but la construction d'un entrepôt de données de génomes bactériens. Cet entrepôt doit rassembler de nombreuses données actuellement dispersées, dans le but d'améliorer l'annotation des génomes bactériens. Au sein de ce projet, nos travaux comportent plusieurs volets. La première problématique porte principalement sur l'extraction et le traitement de données biologiques. Nous nous sommes intéressés plus particulièrement à la conservation de l’ordre des gènes des génomes procaryotes au cours de l’évolution. Pour cela, nous avons mis au point une chaîne de traitements visant à détecter les régions dont l’ordre est conservé. Nous avons ensuite étudié l’évolution relative des protéines codées par les gènes dont l’ordre est conservé par rapport aux autres protéines. Ces données ont été mises à disposition à travers l’outil de visualisation SynteView (http://www. Synteview. U-psud. Fr). Pour élargir l'analyse de ces données de conservation de l'ordre des gènes, il est nécessaire de les croiser avec d'autres types de données comme par exemple de voie métabolique. Ces données, souvent dispersées et hétérogènes sont difficiles à interroger. C’est pourquoi dans un second temps, nous nous sommes concentrés sur la conception et l'interrogation de l'entrepôt. Nous avons conçu une architecture et des algorithmes dans le but d’interroger l’entrepôt, en gardant les points de vue donnés par les sources. Ces algorithmes ont été implémentés dans GenoQuery (http://www. Lri. Fr/~lemoine/GenoQuery), un module de requête prototype adapté à l'interrogation d'un entrepôt de données génomiques.