Statistical physics for materials classification
Institution:
Université Louis Pasteur (Strasbourg) (1971-2008)Disciplines:
Directors:
Abstract EN:
Genetic algorithms (GA) and clustering techniques are used to study and classify materials. An analysis of the convergence speed of GA is carried out using advanced probability theory and random walk concepts. The determination of the ground-state of multicomponent alloys and Ising models with long-range interactions is accomplished using genetic algorithm. A new GA operator, the domain-flip, is introduced and its efficiency is compared to that of traditional GA operators, crossover and mutation. The domain-flip operator destroys phase-boundaries by flipping all bits of a given domain at the same time. This operator turns out to be crucial in extracting the system from low local minima. Therefore its presence is rather essential to speed up the GA convergence. A study of GA convergence in its last stages, where all chromosomes present in the population are assumed to consist of two well-ordered domains, is performed using random walk theory and probability theory. Exact expressions for the average time needed for at least one chromosome to find the ground-state are derived. Also, the probability for two chromosomes to undergo a successful crossover, meaning the result is the ground-state, is given. Finally, clustering techniques, which belong to the field of Data Mining, are applied to the classification of materials. An improved version of the widely-used clustering algorithm, K-means, is developed. A comparison of the two clustering techniques on a two-dimensional data set shows that the guide-point approach is more powerful than the K-means algorithm. The guide-point algorithm is used successfully to partition a materials data set. This clustering results in extracting useful information from the data set for which no a priori knowledge was assumed.
Abstract FR:
Des algorithmes génétiques (GA) et des techniques de " clustering " sont utilisés pour étudier et classifier des matériaux. Une analyse de la convergence des GA est effectuée en utilisant les outils de la théorie avancée des probabilités et les concepts des marches aléatoires. La détermination des états de base d'alliages complexes et de modèles d'Ising avec interaction à longue portée est accomplie à l'aide d'algorithmes génétiques. Un nouveau GA opérateur, le " domain-flip ", est introduit et son efficacité est comparée aux opérateurs GA traditionnels, " crossover " et mutation. L'opérateur domain-flip détruit les barrières de phases en renversant d'un seul coup tous les " bits " d'un domaine donné. Cet opérateur se révèle crucial pour extraire le système des minima locaux. Par conséquent son utilisation est essentielle pour accélérer la convergence des GA. Une étude des GA dans leurs derniers stages, là où tous les chromosomes présents dans la population sont constitués de deux domaines bien ordonnés, est menée à bien en utilisant les théories des marches aléatoires et des probabilités. Des expressions analytiques du temps moyen nécessaire pour qu'au moins un chromosome trouve l'état de base sont dérivées. Egalement, la probabilité que deux chromosomes se combinent avec succès lors d'un crossover est donnée. Finalement, les techniques de clustering, qui appartiennent au domaine du " data mining ", sont appliquées à la classification des matériaux. Une version améliorée du fameux algorithme de clustering, " K-means ", est développée. Une comparaison des deux techniques sur un ensemble de données bi-dimensionnelles montre que la méthode dite du " guide-point " est plus performante que l'algorithme K-means. L'algorithme du guide-point est utilisé, avec succès, pour partitionner un ensemble de données concernant des matériaux. Cette partition a pour résultat l'extraction