Etude et conception d'une plate-forme d'intégration et de visualisation de données génomiques et d'outils bioinformatiques
Institution:
Paris 11Disciplines:
Directors:
Abstract EN:
In this beginning of millennium, the efforts of the industrial and academic world allowed for a first version of the sequencing of the human genome. By opening one of these files of sequence, the reader reaches a text of several million characters “a”, “t”, “g”, or “c”, each one symbolizing one of the four bases which constitute the dna. This sequence of letters puts forward our misunderstanding of dna. In order better to tackle this language, a lot of databases of dna sequences, annotations, and experiments were built, several tools of treatments of information were written. The first part of this thesis resolves the integration problem of bioinformatic tools. The approach adopted for the integration of tools is to melt a distributed architecture within the basic data engine. The other facet of integration relates to the integration of data resulting from various biological databases. In a more precise way, our goal is that a user integrate his personal data (coming from an excel file, a text file,. . . ) with the data of the “institutional” bases such as those of the ncbi or swissprot. Lastly, we propose a semantic integration tool called “lysa”. This tool proposes not to explore a database through the structure of the base but through the data within. The purpose of this exploration is to make it possible for the user to find the “semantic” links between data.
Abstract FR:
Dans ce debut de millenaire, les efforts communs des mondes industriel et academique ont permis une premiere version du sequenÇage du genome humain. A l'ouverture de l'un de ces fichiers de sequence, le lecteur accede a un texte de plusieurs millions de caracteres 'a', 't', 'g', ou 'c', chacun symbolisant l'une des quatre bases azotes qui constituent l'adn. Cette succession de lettres met en exergue l'incomprehension que nous avons du langage de l'adn. Afin de mieux apprehender ce langage, des bases de donnees de sequences, d'annotations, d'experiences ont ete montees, de plus plusieurs outils de traitements d'information ont ete ecrits. La premiere partie de cette these s'attache a cette problematique d'integration d'outils bioinformatiques. L'approche adoptee pour l'integration d'outils est de fondre une architecture distribuee au sein meme du moteur de base de donnees. L'autre facette de l'integration concerne l'integration de donnees issues de differentes bases de donnees biologiques. De faÇon plus precise, notre graal est qu'un utilisateur puisse integrer ses donnees personnelles (provenant d'un fichier excel, d'un fichier texte,. . . ) avec les donnees des bases " institutionnelles " telles que celles du ncbi ou de swissprot. Enfin, nous lui proposons un outil d'integration semantique appele " lysa ". Cet outil est un des premiers qui propose a l'utilisateur d'explorer une base de donnees non pas via la structure de la base mais via les donnees contenues. Cette exploration a pour but de permettre a l'utilisateur de retrouver les liens " semantiques " qui existent entre les donnees.