Modélisation de séquences génomiques structurées, génération aléatoire et applications
Institution:
Paris 11Disciplines:
Directors:
Abstract EN:
Evidences of a selective pressure over structured genomic data (RNA, Proteins, DNA) can be established using random sequences model. From such a model, it is possible to evaluate the significance of an observed phenomenon, at the cost of some complex mathematical analysis or through randomgeneration. First, we will consider the properties of weighted context-free grammars, a class of models especially fit for the modeling of RNA secondary structure. We derive efficient random generation algorithms implemented in the software GenRGenS. We address the computation of weights realizinggiven frequencies for the terminal symbols, and give directions to solve this problem, both theoretically by mean of Drmota theorem and practically through an optimisation approach. Then, we focus on the modeling of RNA secondary structure. After a short introduction to some of the biological phenomena that motivates our works, we propose several models for this structure based on context-free grammars, allowing for the random generation of realistic RNA structures. Using a optimisation based algorithm, we derive the weights associated with certain RNA families. We also propose an algorithm for the extraction of the maximal planar subset of a general, possibly non-planar, RNA structure in order to exploit the most recent structural data obtained through crystallography. Finally, the last chapter of the thesis deals with the analysis of a similarity search algorithm, which sensibility turns out to be closely related to the probability of presence of a given motif in a special random walk, the culminating paths. These paths share both properties of staying above the Y-axis (positivity) and reaching their maximal height at their last step. We propose a polynomial-time recursive random generation algorithm for these paths and, by mixing enumerative combinatorics, asymptotic analysis and language theory, we propose linear time complexity algorithms through a rejection approach in many cases.
Abstract FR:
La mise en évidence des mécanismes de sélection agissant sur les données génomiques structurées (ARN, Protéines, ADN…) nécessite l'élaboration de modèles de séquences. Une fois un tel modèle élaboré, il est possible, au prix d'une analyse mathématique parfois complexe ou par le biais de lagénération aléatoire, d'évaluer la significativité d'un phénomène observé. Tout d'abord, nous nous intéressons aux propriétés des grammaires pondérées, un formalisme particulièrement adapté à la modélisation de la structure des ARN, dérivant des algorithmes de génération aléatoire efficaces implémentés au sein du prototype GenRGenS. Nous abordons le calcul automatique des pondérations réalisant des valeurs observées pour les paramètres du modèle, ainsi qu'une implémentation basée sur une approche optimisation. Dans un second temps, nous abordons la modélisation de la structure secondaire d'ARN. Après quelques rappels de biologie moléculaire, nous proposons plusieurs modèles basés sur des grammaires pondérées permettant la génération de structures d'ARN réalistes. L'utilisation d'un algorithme d'optimisation permet le calculer des pondérations correspondant à certaines familles d'ARN. Nous proposons enfin un algorithme d'extraction de structure secondaire maximale dans une structure générale, qui permet de profiter des données récentes issues de la cristallographie. Le dernier chapitre de cette thèse s'intéresse à l'analyse d'un algorithme de recherche de similarité heuristique, dont la sensibilité s'avère étroitement liée à la probabilité de présence d'un motif au sein de marches aléatoires particulières, les chemins culminants. Ces marches restent positives, et atteignent une altitude maximale en leur dernier pas. Nous proposons un algorithme récursif de génération aléatoire pour ces chemins. En combinant des techniques issues de la combinatoire énumérative, l'analyse asymptotique et la théorie des langages, nous dérivons des algorithmes de génération aléatoire par rejet linéaires dans de nombreux cas.