Developpement informatique d'une base de donnees relationnelles nucleotidiques mitochondriales
Institution:
Paris 6Disciplines:
Directors:
Abstract EN:
Pas de résumé disponible.
Abstract FR:
L'objectif du travail est le developpement d'une base de donnees relationnelles contenant un arbre taxonomique (ncbi) et l'information de fichiers embl, bruts ou annotes, correspondant a l'adn ou l'arn du genome mitochondrial. Le genome mitochondrial est complexe, au niveau inter- et intra-organisme, dans la grande variabilite d'une part d'organisation et de structure du genome et d'autre part de l'expression et de la regulation des genes. La gestion coherente dans une base d'une variete d'organismes et de phenomenes moleculaires aussi large represente la difficulte de conception d'une telle base. La mise en uvre modulaire de cette base est reproductible a d'autres genomes. La base de donnees s'articule en deux bases. La premiere base, prebase, stocke sans perte les donnees des fichiers au format embl d'origines differentes. Elle permet d'apprehender, sans contrainte, les nouveaux chargements et les evolutions de format. La deuxieme base, la base d'interrogation, contient les donnees filtrees, annotees de facon automatique. La structure de la base d'interrogation est commune a tous organismes, a tous phenomenes moleculaires et leur position sur la sequence (i. E. Epissage, edition, mutation). Sa structure synthetique, integrant l'arbre taxonomique, permet une interrogation aisee et des routines de verification et d'annotation automatiques (synonymie automatique des noms de gene). Une methode d'analyse (afc, cah, partition) des termes du thesaurus annotant les regions genetiques est decrite. Elle permet de reveler des anomalies d'annotation, des regions genetiques marginales et des groupements des termes annotant de facon similaire certains types de regions genetiques dans la prebase qui permettent ensuite d'enrichir la structure et les routines de mise a jour de la base d'interrogation. L'interface d'interrogation sur le web est constituee de pages reparties en deux groupes correspondant aux phases de selection de l'information et de visualisation du resultat. Les pages a themes de selection des donnees permettent la saisie de multiples criteres qui constitueront la requete finale. Le resultat est une liste de regions genetiques dont les proprietes sont consultables via les pages a themes et dont les sequences peuvent etre alignees ou listees dynamiquement dans un format choisi.