thesis

De l'annotation automatique des génomes à l'annotation experte pour la génomique environnementale

Defense date:

Sept. 25, 2018

Edit

Institution:

Aix-Marseille

Disciplines:

Authors:

Directors:

Abstract EN:

At the time of the beginning of this work presented in this document (2003), genome annotation was a long and tedious task. With the advent of new sequencing technologies, many tools have been developed to facilitate and accelerate this process. At best, the annotation of an automatic genome can take less than 3 minutes, making manual annotation the more time consuming activity. Thus, many genomes are deposited into sequence banks without expert manual annotation. It quickly became clear that annotators needed to be provided with the possibility of accessing consolidated databases specific to their field of expertise.This paper presents a modular annotation and visualization tool, GenoBrowser, which we created as part of the research in our microbiology team. This allows us to easily integrate new functionalities related to Omics data generated in the team. The architecture of our tool and the creation of a specific API (Application Programming Interface) enabled us to develop and make available to the scientific community two databases (P2CS and P2TF) dedicated to regulation networks in bacteria, as well as the associated web server for prediction of these systems for genomes sequenced de novo.This work has led to the development of a set of tools within a research team to support expertise in environmental genomics research. It allowed us to work on the consolidation and reuse of the growing amount of Omics data and to carry out a new research theme to help team members: bibliomics, the study of all scientific publications using NLPs (Natural Language Processing) approaches.

Abstract FR:

À l'époque du démarrage des travaux présentés dans ce document (2003) l’annotation d’un génome était une tâche longue et fastidieuse. Avec l’apparition des nouvelles technologies de séquençage, de nombreux outils ont été développés pour faciliter et accélérer ce processus. Pour les meilleurs, l’annotation d’un génome automatique peut prendre moins de 3 minutes, reportant l’activité chronophage sur l’annotation manuelle. Ainsi, de nombreux génomes sont déposés dans les banques de séquences tels quels sans annotation manuelle experte. Il est donc rapidement apparu nécessaire de fournir aux annotateurs la possibilité d’accéder à des bases de données consolidées et spécifiques de leur domaine d’expertise.Nous présentons dans ce document un outil modulaire d’annotation et de visualisation, GenoBrowser, que nous avons créé dans le cadre de nos travaux de recherche dans une équipe de microbiologie. Celui-ci nous permet d’intégrer simplement de nouvelles fonctionnalités liées aux données de Omics générées dans l’équipe. L’architecture de notre outil et la création d’une API (Application Programming Interface) spécifique nous ont permis de développer et de mettre à la disposition de la communauté scientifique deux bases de données (P2CS et P2TF) dédiées aux réseaux de régulation chez les bactéries, ainsi que le serveur web associé pour la prédiction de ces systèmes pour des génomes séquencés de novo.Ce travail a permis de développer, au sein d’une équipe de recherche, un ensemble d’outils d’aide à l’expertise pour la recherche en génomique environnementale. Il nous a permis de travailler sur la consolidation et la réutilisation de la quantité croissante de données de type Omics.