thesis

Contribution des algorithmes évolutionnaires au partitionnement des données

Defense date:

Jan. 1, 1997

Edit

Institution:

Tours

Disciplines:

Abstract EN:

In this work we are interested in the contribution of evolutionary algorithms (genetic algorithm and evolution strategy) to the partionning problem. It is well known today, that evolutionary methods with their implicit parallelism, have good abilities to perform a global search in the space of possible solutions of the problem at hand, and that they don't need any prior modelling of the data. We propose here new partition encodings with known or unknown number of clusters, adapted to different clustreing models (exclusive, fuzzy, possibilist, mixture model. . . ). These encodings are : belongness, prototype, and similitude. The algorithms we propose are based on these encodings and seek in the partitions'space the number of clusters and the "optimal" partition in regard to a predefined criterion. One of the originality of this thesis is the use of variable length chromosomes, which easily adapt to partitions' encodings with variable number of clusters. We also introduce new genetic operators : insertion and deletion of clusters as in the isodata algorithm. Finally, we give some experimental results on simulated and real data of our algorithms and compare them to GMVE and isodata ones.

Abstract FR:

Dans cette thèse, on s'intéresse à l'apport des algorithmes évolutionnaires (algorithme génétique et stratégie d'évolution) au partitionnement des données. Il est en effet aujourd'hui reconnu que les méthodes évolutionnaires, par leur parallélisme implicite possèdent de bonnes aptitudes à l'exploration globale de l'espace de solutions et ne nécessitent pas de modélisation a priori des données. Nous proposons de nouveaux codages d'une partition à nombre de classes fixes ou non relativement à différents modèles de classification (exclusive, flore, possibiliste, mélange de lois de probabilité). Ces codages sont de trois types : par appartenance, par prototype et par similitude. Les algorithmes que noous proposons sont construits à partir de ces codages et recherchent en parallèle, dans l'espace des partitions codées, le nombre de classes et la classification associée. Une des originalités de cette thèse concerne l'utilisation de chromosone de longueur variable pour le partitionnement, le nombre de classes n'étant pas fixe a priori. On introduit aussi de nouveaux opérateurs génétiques d'insertion et de fusion de classes à l'image de l'algorithme Isodata. Les algorithmes sont valides sur des données réelles et simulées et compares à deux méthodes de classification non génétique (GMVE et Isodata).