thesis

Random Forest Hyperparameter Optimization, GPU Parallelization and Applications to Soil Analysis for Optimal Crop Production

Defense date:

Oct. 3, 2019

Edit

Institution:

Paris 8

Disciplines:

Directors:

Abstract EN:

Research developed in this thesis focused on the evaluation of Machine Learning algorithms through the Random Forest algorithm (RF). The evaluation of land for optimal crop production is nowadays done manually, which makes it long and prone to human error. Some Machine Learning algorithms (linear regression, discriminant factor analysis, k-nearest neighbours, naive Gaussian and Bayesian, support vector machines) were tested and evaluated on data sets. The RF algorithm has made it possible to develop a soil data classifier, and has made it possible to develop an expert without the involvement of a human expert in soil science. This approach can improve the land valuation process and provide valuable land evaluation. Two approaches to optimize RF performances have been developed. First, a non-deterministic algorithm was formulated to optimize execution time and accuracy. The results were compared to a classical deterministic research. Then, parallelization strategies for the construction of RF on GPUs was approved to reduce the learning time of such a classifier. Sequential version, parallel version and parallel version with large dynamic grain were studied, proposed and tested in solutions named seqRFGPU, parRFGPU and dpRFGPU respectively. The results show that seqRFGPGPU reduces execution times, with interesting average accelerations for parRFGPU and dpRFGPU. The development of the RF algorithm has historically led to the development of many libraries implementing this algorithm and its use on a wide variety of problems and datasets. Most RF implementations are based on an original idea proposed by Léo Breiman presented in 2001. A wide range of implementations has been introduced such as new data division approaches to improve performance and accuracy. The solutions for application to soil analysis, hyperparameter optimization and GPU parallelization are discussed in the full version of this thesis written in English.

Abstract FR:

Les travaux développés dans cette thèse se sont concentrés sur l’évaluation des algorithmes d’Apprentissage Automatique au travers de l’algorithme des forêts aléatoires (Random Forest). L’évaluation des terres pour une production optimale des cultures est aujourd’hui fait manuellement, ce qui la rend longue et prédisposé aux erreurs humaines. Certains algorithmes d’Apprentissage Automatique (régression linéaire, analyse factorielle discriminante, k-plus proches voisins, gaussien naïf et bayésien, séparateurs à vaste marge) ont été testés et évalués sur des ensembles de données. L’algorithme des forêts aléaloires a permis de développer un classifieur des données sur les sols, et a permis le développement d’un expert sans implication d’un expert humain en science du sol. Cette approche peut améliorer le processus d’évaluation des terres et offrir des services d’évaluation des terres agricoles. Deux approches d’optimisation des performances de l’algorithme des forêts aléatoires ont été développées. Tout d’abord, un algorithme non déterministe a été formulé pour optimiser le temps d’exécution et la précision. Les résultats ont été comparés aux résultats d’une recherche exhaustive déterministe. Ensuite, les moyens d’opter pour la parallélisation de la construction des forêts aléatoires sur GPU a été avaluée pour réduire le temps d’exécution de l’apprentissage d’un tel classifieur. Version séquenciel, version parallèle et version parallèle à gros grain dynamique ont été étudiés et proposés dans des solutions nommées respectivement seqRFGPGPU, parRFGPU et dpRFGPU. Les résultats montrent que seqRFGPGPU obtient des temps d’exécution réduit, avec des accélérations moyennes intéressantes pour parRFGPU et dpRFGPU. La mise au point de l’algorithme RF a conduit historiquement au développement de nombreuses bibliothèques implémentant cet algorithme et à son utilisation sur une variété très diversifiée de problèmes et d’ensembles de données. La plupart des implémentations de RF sont basées sur une idée originale proposée par Léo Breiman en 2001. Les variations vont des plates-formes de mise en oeuvre à l’introduction de nouvelles idées comme de nouvelles approches de division des données, afin d’améliorer les performances et la précision. Les solutions d’optimisation des hyperparamètres et de parallélisation GPU en sont examinées dans la version complète de cette thèse rédigée.