thesis

Identification et analyse des signaux de codes circulaires dans les gènes par des méthodes bioinformatiques

Defense date:

Jan. 1, 2010

Edit

Institution:

Strasbourg

Disciplines:

Authors:

Directors:

Abstract EN:

A previous study of the structure of nucleotides in the 3 frames of genes has shown that the trinucleotide distribution in the 3 frames is not random and that each trinucleotide occurs preferentially in one of the 3 frames. Hence, 3 sets of trinucleotides have been identified representing the trinucleotides with a preferential frame 0, 1 or 2. Those 3 sets have shown exceptional bio-mathematical properties, in particular the circular code property which allows identifying automatically the 3 frames locally in a gene without knowledge of the start codon. Those sets are called the common circular code. The objective of our thesis is to identify and analyze signals of the common circular code in different gene families. Those gene families are chosen because either their primary structures or their biological functions have a link with one of the common circular code properties. By using the circular code information, a list of the essential cellular functions has been studied and identified in a species independent manner. This study has also allowed studying the common circular code evolution and stability. The common circular code has also been studied in 2 special gene families: the micro RNAs and the frameshift genes. This study allowed the identification of new structural properties that led to a better identification of those genes.

Abstract FR:

En étudiant la structure nucléotidique des 3 phases des gènes, il a été constaté dans des travaux antérieurs que la distribution des trinucléotides dans ces 3 phases n’est pas aléatoire et que chaque trinucléotide apparait préférentiellement dans l’une des 3 phases (phase d'occurrence préférentielle). Trois ensembles de trinucléotides ont ainsi été identifiés représentant les trinucléotides ayant respectivement comme phase d’occurrence préférentielle les phases 0, 1 ou 2. Ces 3 ensembles ont des propriétés biomathématiques étonnantes et rares, en particulier celle de code circulaire qui permet de retrouver chacune des 3 phases d'un gène localement, en particulier la phase de lecture sans codon d’initiation, et automatiquement avec une fenêtre de quelques nucléotides. Les 3 ensembles sont nommés de façon abrégée « code circulaire commun ». L’objectif de notre travail de recherche est d’identifier et d’analyser les signaux associés au code circulaire commun dans diverses familles de gènes. Ces familles de gènes ont été choisies car leurs structures primaires ou leurs fonctions cellulaires devrait avoir une relation avec des propriétés du code circulaire commun. En utilisant l’information du code circulaire commun, une liste des fonctions cellulaires essentielles a été étudiée et identifiée d’une manière indépendante de l’espèce d’appartenance. Cette étude a permis également d’étudier l’évolution et la stabilité du code circulaire commun. Ce code a été étudié également dans 2 familles de gènes spéciaux : les micro ARN et les gènes à phase décalée. Cette étude a permis d’identifier de nouvelles propriétés structuraux permettent une meilleurs identification de ces gènes.