thesis

Couplage entre les bases de données factuelles et bases de données bibliographiques : Identification dans Medline des gènes décrits dans Flybase et application à l'extraction d'informations sur les interactions génétiques ou moléculaires à partir de publications

Defense date:

Jan. 1, 2002

Edit

Institution:

Aix-Marseille 3

Disciplines:

Directors:

Abstract EN:

This thesis provides solutions to the problems of interaction between bibliographical information and factual information databases by informing on-line encyclopedias of other bibliographical references, and extracting information directly from on-line scientific literature. The case study we took was genes and their interactions in the fly "Drosophila" We created software to find sentences or phrases describing at least one gene's interaction, and to identify genes in Medline (a famous bibliographical database) from their descriptions in Flybase (an on-line encyclopedia of the fly). Difficulties in the computerization of this task were: The absence of high-quality keywords for sentences that describe interactions Possible confusion between some genes' names and common words Gene naming complexity: existence of alias' and abbreviations, composition of terms using names of genes,etc. The program was tested successfully, and the details of the implementation are given in the document.

Abstract FR:

La thèse propose des solutions pour mettre automatiquement en relation des informations bibliographiques avec des informations factuelles. Il s'agit de documenter des encyclopédies en ligne avec des références bibliographiques ou d'extraire des informations directement à partir de la littérature scientifique. Nous avons pris l'exemple des gènes et de leurs interactions chez la mouche (Drosophile). Nous avons mis au point un logiciel qui permet d'identifier dans Medline des gènes décrits dans Flybase (encyclopédie sur la Drosophile) et de reconnaître les textes décrivant des interactions entre ces gènes. La difficulté dans l'automatisation de cette tâche réside dans la complexité de la nomenclature (existence d'alias et d'abréviations, composition de termes utilisant des noms de gènes. Etc. ), dans la confusion possible entre certains noms de gènes et des mots du vocabulaire courant et dans l'absence de mots clefs suffisamment univoques pour marquer les phrases décrivant une interaction.