thesis

Exploration des données SAGE par des techniques de fouille de données en vue d'extraire des groupes de synexpression impliqués dans l'oncogénèse

Defense date:

Jan. 1, 2007

Edit

Institution:

Lyon, INSA

Disciplines:

Abstract EN:

With the development of high-throughput molecular biology techniques, the accumulation of huge quantities of data asks new methodological and theoretical questions, in biology and in computer science. These questions open the field of study of life complexity. This work is a part of this bioinformatics framework. Essentially, our contribution resides in the study and query of human SAGE data from the Cancer Genome Anatomy Project. We studied deeply the specifie qualities of these data, and the biological questions we can ask on these data. To answer these, several methods of data mining were needed. Each question demanded the conception of an original data mining scenario. Their setting-up was based on the use of several data mining algorithms dedicatted to the extraction of local set patterns in database, especially the ones developed by the partners involved in a French national project, the ACI BINGO. The biological questions and the particular shape of SAGE data confronted us to various technological issues that are now fixed or at least delimited. A special effort was made to post-process the extracted local patterns and to interpret them. As a matter of fact, a clustering method to aggregate similar local patterns was proposed to ease the identification of relevant patterns from a biologist point of view. The impact of all these methodological elements was validated on a work of interpretation of QSGs in order to propose new hypotheses on sets of genes simultaneously over-expressed in cancerous situations.

Abstract FR:

Avec le développement de techniques de biologie moléculaire à haut débit, l'accumulation de grandes quantités de données permet de poser de nouvelles questions tant méthodologiques que fondamentales, en biologie comme en informatique. Ces questions ouvrent la voie à l'étude de la complexité du vivant. Ce travail de thèse s'inscrit dans ce contexte de bioinformatique. L'essentiel de notre contribution réside dans l'étude et l'interrogation des données SAGE humaines issues du Cancer Genome Anatomy Project. Nous avons ainsi étudié en profondeur les qualités particulières de ces données, ainsi que les questions biologiques que nous pouvions nous poser à partir de ces données. Répondre à ces questions a nécessité différentes méthodes d'extraction de connaissances à partir des données. Chaque question a demandé la conception d'un scénario original d'extraction de connaissances. Leur mise en oeuvre a reposé sur l'utilisation de différents algorithmes d'extraction de motifs dans les bases de données, en particulier des algorithmes de recherche de motifs ensemblistes dans des données booléennes développés par différents partenaires de l'ACI Bases de Données Inductives pour la Génomique. Les questions biologiques ainsi que la forme particulière des données SAGE nous ont confronté à certains verrous technologiques désormais résolus (e. G. , la transposition pour l'extraction de tous les concepts formels, l'exploitation active de contraintes au cours des phases d'extraction) ou mieux cernés (e. G. , le codage booléen de propriétés d'expression). Un effort particulier a été fourni sur le post-traitement des motifs ensemblistes extraits et sur leurs interprétations. Ainsi, une méthode de classification de motifs locaux similaires (avec application à des collections de concepts formels) est proposée pour faciliter l'interprétation de ce que nous appelons des QSGs ("quasi synexpression groups"). Nous avons également travaillé à l'exploitation de sources de données externes (typquement des sources comme Gene Ontology ou en core des résumés d'articles) pour faciliter l'identification des motifs pertinents d'un point de vue biologique. L'impact de ces éléments de méthodes a été validé sur un travail d'interprétation de QSGs extraits des données SAGE humaines afin de proposer de nouvelles hypothèses sur des groupes de gènes simultanément co-surexprimés dans des situations cancéreuses.