thesis

Contributions à l'apprentissage automatique par programmation génétique : vers une rationalisation de l'effort de calcul

Defense date:

Jan. 1, 2008

Edit

Institution:

Littoral

Disciplines:

Directors:

Abstract EN:

This thesis is about with Genetic Programming (GP) applied to Machine Learning. GP heuristics (Koza, 1992) produces and adapts programs like in Darwin theory in order to solve a given problem. Our experiments and comparisons show how to use GP at its best. Choosing a representation for GP or its grammar based variants, biases any problem such as Santa Fe Trail robotics problem. We use Grammatical Evolution and Bayesian Automatic Programming versus GP. They get of course different biases, but may change the space of programs and some problem settings too. We correct some previous results. Our measure of computational effort motivates not to use a three actions sequences progn3. Moreover GP is slown by bloat, uncontrolled growth of the average size of programs. Poli (2003) presents Tarpeian Control to limit the increase of mean size. As started by “Occam’s razor”, we wonder whether it would promote more general hypotheses. With a look at generalization error over symbolic regression problems, we show that control may build programs more able to generalize and helps preventing bloat. Finally we introduce ROCBoost, a new meta-heuristics derived from boosting (Freund and Shapire) that combines and weights many hypotheses. Area under ROC (Receiver Operating Characteristic) Curve is maximized by our weights update procedure. We improve some published results with ROCBoost of GP and of Evolution Strategies. Those experiments prove that GP is competitive in supervised machine learning.

Abstract FR:

Dans cette thèse, la programmation génétique (PG) est appliquée à l’Apprentissage automatique. Inspirée par l’évolution darwinienne, l’heuristique de PG (Koza, 1992) génère des programmes pour résoudre un problème posé. Nos comparaisons expérimentales montrent comment mieux utiliser la PG. Choisir une représentation induit un biais pour tout problème. C’est le cas en robotique, pour le problème du Santa Fé Trail ou SFT, résolu par la PG, Grammatical Evolution et Bayesian Automatic Programming. Ces variantes, basées sur des grammaires explicites et non closes, ont des biais exploratoires différents, mais modifient aussi des caractéristiques du problème. Nos expériences invalident certains résultats, précisent la difficulté du SFT et incitent à ne plus utiliser la séquence de trois actions progn3. D’autre part, la PG est ralentie par la congestion, croissance excessive des programmes. Poli (2003) régule la taille moyenne par le contrôle tarpéien. Cela aide-t-il à découvrir des hypothèses plus simples, plus générales, phénomène nommé « rasoir d’Occam » ? En observant la généralisation de programme en régression symbolique, nous montrons que ce contrôle peut construire des hypothèses plus généralisables que la PG et validons par l’expérience l’effet de lutte contre la congestion. Nous proposons enfin ROCBoost, métaheuristique de boosting (Freund et Shapire) qui combine et pondère plusieurs apprenants. Notre calcul des poids maximise l’aire sous la courbe ROC (Receiver Operating Characteristic). Employée avec la PG et avec les Stratégies d’Evolution, ROCBoost améliore des résultats publiés et place la PG comme une heuristique compétitive en classification supervisée.