Détermination du nombre de classes : application aux gènes et aux protéines
Institution:
Université Louis Pasteur (Strasbourg) (1971-2008)Disciplines:
Directors:
Abstract EN:
This work deals with two different problems. The first problem is finding the best number of clusters in a set of points. We propose five methods which we compare with one another and with methods from the literature. Two of them,Secator and DPC produce good results on biological data, respectively on protein families and on genes' expression data. Secator is a rule finding the << elbow >> of the dissimilarity value curve produced by an ascending hierarchical method. The << elbow >> is found by clustering the dissimilarity values into two groups. DPC is based on a division test to decide if a group must be divided into two groups or not. This test compares the density of points inside the two groups and between them. If the first is significatively superior to the second then the group is divided. Another method is inspired by the BIC approximation of a mixture model likelihood. We propose an objective function to choose the best model which contains two terms, one is the model likelihood and the second depends on the percentage of misclassified points. The second problem is the decomposition of a protein into simple volumes. We have developped a heuristic to cut an object into subpieces using the skeleton of the object to find the regions presenting important curvature or pinches. Each subpiece is approximated by the smallest enclosing parallelepiped using two properties we have demonstrated. The developped program has been applied to protein structures to identify surface regions whose composition is biased.
Abstract FR:
Le premier problème concerne le problème de la détermination du nombre de classes dans le contexte de la classification. Nous proposons cinq méthodes différentes que nous comparons entre elles et avec des méthodes de la littérature. Deux d'entre elles, Secator et DPC donnent des résultats intéressants sur des données biologiques, respectivement des familles de protéines et des données d'expression de gènes. Secator est un critère qui détermine le << coude~>> dans la courbe de niveau d'une classification hiérarchique ascendante en partitionnant en deux groupes les pourcentages d'inertie expliquée. DPC est basé sur un test de découpage de classe qui fait l'hypothèse qu'une classe doit être découpée en deux si la densité à l'intérieur de ces deux classes est significativement supérieure à celle observée entre les deux. Une autre méthode développée est inspirée de l'approximation BIC de la vraisemblance d'un modèle, nous introduisons une fonction objectif pour choisir un modèle de mélanges composé de deux termes liés, l'un à la vraisemblance du modèle et l'autre au pourcentage de points mal classés observés. Le second problème est celui de la décomposition d'un objet en volumes élémentaires. Nous avons proposé une méthode heuristique de découpage utilisant le squelette de l'objet pour y détecter les zones de forte courbure du squelette ou de pincement de la surface, qui sont des zones privilégiées de découpages. Nous approchons chaque fragment de l'objet par son plus petit parallélépipède enblobant qui est calculé grâce aux deux propriétés mathématiques que nous avons démontrées. Le programme développé a été appliqué à des structures de protéines afin d'y trouver des zones de surface dont la composition physico-chimique est biaisée.