thesis

Intégration de données biologiques : sélection de sources centrée sur l'utilisateur

Defense date:

Jan. 1, 2005

Edit

Institution:

Paris 11

Disciplines:

Abstract EN:

Our work takes place in the context of data integration which aims at developing solutions to offer a uniform access to multiple, distributed and heterogeneous biological databases. Life sciences are continuously evolving so that the number and size of new sources providing specialized information in biological sciences have increased exponentially in the last few years. Scientists are therefore frequently faced with the problem of the integration of their data with information from multiple heterogeneous sources and data analysis with bioinformatics tools. They have thus to select sources and tools when interpreting their data. The diversity of sources and tools available makes it increasingly difficult to make this selection without assistance. Our work was developed following a thorough study of scientists' needs during querying and data management. After interviewing scientists working in various domains, we found that biologists express preferences concerning the sources to be queried and that the querying process itself -- the strategy followed -- differs between scientists. In response to these findings, we have first introduced a cooperative mediator, making it possible to meets some of the key requirements of experts. Secondly, we have proposed two modules to select data sources: DSS then BioGuide which generalizes DSS. BioGuide (http://www. Lri. Fr/~cohen/bioguide/bioguide. Html) is a user-centric framework which helps the scientists to choose suitable sources and tools, find complementary information in sources, and deal with divergent data. It provides answers respecting the preferences of the user and obtained following his strategy.

Abstract FR:

Nos travaux de recherche s'inscrivent dans le cadre général de l'intégration d'informations biologiques visant à développer des solutions pour offrir un accès uniforme à des bases de données multiples et hétérogènes. Les données biologiques sont fortement distribuées sur le Web (419 sources en 2005). Elles évoluent rapidement, reposent souvent sur des observations expérimentales et des expertises et sont donc très variées et complémentaires. Pour interpréter leurs résultats expérimentaux, les biologistes doivent donc fréquemment intégrer leurs données avec celles des sources publiques. Ils doivent alors sélectionner les sources et les outils à utiliser. La diversité des sources rend cette tâche complexe à effectuer manuellement. Nos travaux sont fondés sur une collaboration étroite avec des biologistes de différents domaines. Nous avons conduit une étude approfondie de leurs besoins d'où il ressort qu'ils ont des préférences sur les sources à interroger et que le processus d'interrogation -- la stratégie suivie -- diffère d'un biologiste à l'autre. En réponse à ces besoins, nous introduisons d'abord un cadre pour une médiation coopérative proposant notamment à l'utilisateur de caractériser les sources qu'il souhaite exploiter pour sa requête. Nous proposons ensuite deux modules d'aide à la sélection de sources : DSS puis BioGuide (http://www. Lri. Fr/~cohen/bioguide/bioguide. Html) qui généralise ce dernier. BioGuide offre un support dans le processus d'interrogation en aidant le biologiste à choisir des sources et des outils pertinents, trouver des informations complémentaires et gérer les données divergentes en respectant ses préférences et en suivant sa stratégie.