thesis

Exploration immersive de données génomiques textuelles et factuelles : vers une approche par visual mining

Defense date:

Jan. 1, 2006

Edit

Institution:

Paris 11

Disciplines:

Authors:

Directors:

Abstract EN:

This thesis concerns the immersive exploration of textual and factual genomic data. The goal of this work is to design and study new approach for exploring genomic data within an immersive framework (i. E. Of virtual reality). The knowledge about genome is constituted by factual data, coming from structured biological or genomic databanks, and by textual data, namely the unstructured data within the millions publications relating to the research about genome. These data are heterogeneous, huge in quantity, and complex. The stake of this work is to propose visualization and interaction paradigms, which are able to deals with these characteristics. These paradigms must also be adapted to the immersive framework, and must respect the needs of the biologists. We used common points of genomic databanks, to design an original visualization paradigm, where the user is able to choice a translation of the semantic of the genomic data to visual, geometric or topologic properties. We implemented a software prototype in order to test and validate the visualization paradigm within an immersive framework. In this context, we proposed and tested new interaction paradigms, in order to navigate, search and edit the genomic data during the immersive exploration. We used finally this software to lead several experiments of genomic data analysis with biologists, in order to measure the relevance of this visual mining approach on different kinds of genomic data.

Abstract FR:

Ce travail de these porte sur l'exploration immersive de donnees genomiques textuelles et factuelles. Il s'agit d'etudier et de concevoir une nouvelle approche pour d'explorer dans un cadre immersif (i. E. De realite virtuelle), des donnees d'une nature specifique : les donnees genomiques. Ces donnees se presentent sous deux formes : la forme factuelle, c'est-a-dire l'ensemble des donnees structurees provenant des banques de donnees biologiques, et la forme textuelle, a savoir l'ensemble des donnees non structurees presentes dans les millions de publications concernant la genomique. Face a la complexite de ces donnees, l'enjeu est de proposer des paradigmes d'exploration et d'interaction, qui permettent de couvrir le plus largement possible ces donnees de nature variees. Ces paradigmes doivent etre capables de gerer des donnees massives, et doivent etre adaptes a la fois au cadre immersif et aux besoins des biologistes. Ainsi sur la base de l'etude des besoins des utilisateurs et de leurs usages, un paradigme de representation a ete defini en utilisant les caracteristiques tres specifiques des banques de donnees genomiques, et dans lequel la semantique des donnees etudiees est traduite par des proprietes visuelles, geometriques, ou topologiques, choisies initialement par l'utilisateur. Un prototype a ete implemente pour tester et valider le paradigme precedemment defini, et plusieurs experiences d'analyse de donnees genomiques ont ete menees en collaboration avec des biologistes ou bio-informaticiens, afin de mesurer la pertinence de cette solution d'exploration, face a plusieurs problematiques d'analyse de donnees genomiques.