thesis

Analyse des sequences biologiques par les methodes de reconnaissance des formes

Defense date:

Jan. 1, 1992

Edit

Institution:

Paris 6

Disciplines:

Directors:

Abstract EN:

Pas de résumé disponible.

Abstract FR:

L'accroissement rapide de la taille des banques de donnees, ainsi que le sequencage systematique de genomes entiers, rend indispensable l'elaboration de methodes mettant en evidence les liens de proximites entre sequences biologiques. Les indices classiques de similitude reposent sur des alignements prealables des structures primaires. Au contraire, docma (dotplot comparisons by multivariate analysis) est fondee sur une determination de tous les segments similaires entre plusieurs sequences. L'information provenant des multiples dotplots est rassemblee dans un tableau unique qui est ensuite traite par analyse factorielle des correspondances. Puis, les liens de proximite sont etudies par recherche des formes fortes apres partition par l'algorithme des nuees dynamiques. La methode est illustree sur trois familles de proteines: les cytochromes c, les globines et les aminoacide-arnt lipases. Cette derniere famille fonctionnelle est particulierement interessante pour valider les methodes classificatoires car les structures primaires de ces enzymes sont tres diverses. Un alignement multiple des sequences des ligases de classe i, fonde sur la connaissance de trois structures tridimensionnelles, a montre que toutes ces enzymes possedent un repliement de rossmann. Les residus impliques dans la fixation des substrats sont hautement conserves chez les dix enzymes de classe i. En outre, cette etude met en evidence deux sous-groupes, discrimines independamment selon la nature et la position des residus conserves et selon la longueur des boucles joignant les elements de structure secondaire, dans la seconde moitie du repliement de rossmann