Méthodologie d'extraction automatique d'information à partir de la littérature scientifique en vue d'alimenter un nouveau système d'information : application à la génétique moléculaire pour l'extraction d'information sur les interactions
Institution:
Aix-Marseille 3Disciplines:
Directors:
Abstract EN:
Pas de résumé disponible.
Abstract FR:
Le travail presente ici est une nouvelle approche centree sur l'etude des interactions genetiques et moleculaires, associant les sciences de l'information et de la communication et la biologie. Les donnees sur les interactions existent mais elles sont disseminees dans la litterature et il est difficile d'en obtenir une image synthetique. Une methode d'extraction automatique d'information a partir de donnees textuelles a ete developpee, afin de recenser les donnees existantes sur les interactions genetiques et moleculaires. La premiere partie presente les differentes sources de donnees informatisees existantes dans le domaine la biologie moleculaire et genetique. Les differentes techniques d'extraction d'information sont egalement presentees. Dans un deuxieme temps, les differentes etapes necessaires a la mise en place de la methode d'extraction sont exposees. Le choix de la base de donnees et les differentes etapes de traitements necessaires a l'elaboration d'un corpus de references sont decrites, ainsi que la validation biologique de ce corpus. Ce corpus sert alors de base a la realisation de la strategie d'extraction des donnees. Une analyse basee sur des techniques statistiques de donnees textuelles est ensuite effectuee sur le corpus, permettant de determiner un vocabulaire specifique employe pour decrire une interaction. C'est a partir de ce vocabulaire qu'est etablie une strategie de prediction d'interactions capable d'extraire, avec un faible taux d'erreur, des donnees sur les interactions. Apres validation, les donnees ainsi obtenues sont stockees dans un nouveau systeme d'information : la base de donnees flynets-list. Une representation graphique des reseaux formes par ces interactions est elaboree afin d'en donner une vue synthetique. Le recensement des donnees sur les interactions et les representations graphiques des reseaux permettent ainsi de fournir de nouvelles informations structurees a forte valeur ajoutee.