thesis

Confidence measures in deep neural network based stereo matching

Defense date:

May 28, 2020

Edit

Institution:

Lyon

Disciplines:

Authors:

Directors:

Abstract EN:

Despite decades of enhancement since the first proposal of Barnard and Fischler’s, stereo matching approaches still suffer from imprecision, especially in the presence of occlusion, extreme lighting conditions and ambiguity. To overcome these inaccuracies, many methods, called confidence measures, have been proposed to assess the accuracy of the matching. In this thesis, we study state-of-the-art confidence measures and propose two measures, based on neural networks and deep learning, to improve the performance of stereo matching. A first proposed approach uses multi-modal data including the initial disparity and reference RGB images. The multi-modal architecture is subsequently improved by enlarging the Effective Receptive Field (ERF) enabling learning with more contextual information and thus leading to better detection of matching errors. Evaluated on KITTI2012 and KITTI2015 datasets, our multi-modal approach had achieved the best performance during the time. As a second approach, a Recurrent Neural Network (RNN) is proposed in order to refine the result of the stereo matching, step by step. The Gated Recurrent Units (GRU), combined with our multi-modal dilated convolutional network, use information from one step to guide refinement in the next. To the best of our knowledge, this is the first attempt to refine stereo matching based on an RNN. The proposed approach is easily applicable to different Convolutional Neural Networks (CNNs) in stereo matching to produce an effective and precise end-to-end solution. The experimental results prove significant improvements both on KITTI2012 and KITTI2015 datasets.

Abstract FR:

Malgré des décennies d’amélioration depuis la première proposition de Barnard et Fischler, les approches d’appariement stéréo souffrent encore d’imprécision, notamment en présence d’occlusion, des conditions d’éclairage extrêmes et d’ambiguïté. Pour pallier ces imprécisions, de nombreuses méthodes, appelées mesures de confiance, ont été proposées permettant d’évaluer l’exactitude des appariements. Dans cette thèse, nous étudions les mesures de confiance de l’état de l’art et proposons deux mesures, à bases de réseaux neurones et d’apprentissage profond, permettant d’améliorer les performances de l’appariement stéréo. Une première approche proposée utilise des données multimodales comprenant la disparité initiale et des images RGB de référence. Cette architecture multimodale est par la suite améliorée en élargissant le champ d’activation efficace (Effective Receptive Field-ERF) permettant un apprentissage avec davantage d’informations contextuelles et conduisant ainsi à une meilleure détection d’erreur d’appariement. Évaluée sur les données de KITTI2012 et KITTI2015, notre approche multimodale a atteint les meilleures performances du moment. Comme seconde approche, un réseau de neurones récurrent (Recurrent Neural Network-RNN) est proposée afin de raffiner pas à pas le résultat de l’appariement. Les réseaux de neurones récurrents à portes incorporés (Gated Recurrent Unit-GRU), combinés avec notre réseau de confiance multimodal à convolution dilatée, utilisent les informations d’une étape pour guider le raffinement dans une étape suivante. À notre connaissance, il s’agit de la première approche de raffinement proposée basée sur un réseau de neurones récurrent. L’approche proposée est aisément applicable à différents réseaux de neurones convolutifs (Convolutional Neural Network-CNN) d’appariement stéréo afin de produire une solution, de bout en bout, efficace et précise. Les résultats expérimentaux prouvent des améliorations significatives à la fois sur la base stéréo KITTI 2012 et sur KITTI 2015.