thesis

Conception pour le véhicule autonome et les applications ADAS sécuritaires d'un système vidéo ADAS coopératif à base de rétines CMOS

Defense date:

Nov. 25, 2019

Edit

Disciplines:

Authors:

Abstract EN:

The perception by monocular vision is an issue not solved yet. While a competition exists between many companies and huge investments were raised, the expected level of performance to autonomous driving is still not reached. Even if some advanced driving assistance systems functionalities make the driver believe that he can be less focused, it is not the case in practice and the responsibility is still based on its shoulder. This work aims at building a robust front vision system combining two modalities, thanks to the use of an artificial CMOS retina, or an event-based sensor, whose pixels can detect and timestamp positive or negative relative changes of illuminance. The frequency of data acquisition depends on the kinetic of the scene which could vary a lot in automotive scenarios. The two modalities extracted from the sensor are on one side conventional image processing algorithms, and on the other side the detection of light signals emitted by targets, modulated with high frequencies and characterizing the state or the orientation of the object. This work firstly aims at measuring CMOS retinas parameters, in order to design a simulation model and also to determine how the parameters evolve when facing automotive constraints. This step is articulated around the design of a characterization setup and the implementation of a sensor modelusing the measurements realized on the characterization setup. This latter also enables to quantify the performances achieved by the algorithms which detect modulated light signals, to check that each detection corresponds to the good cooperative signal and enable to optimize the sensor’s response to the range of frequencies used. The detection is demonstrated on simulation experiments and on a prototype, with a scope of 150 meters using a frequency equal to 5 kHz. The algorithms proposed in this work allow to keep the asynchronous characteristic of the data stream. The limitations of the technology have been identified to realize signal’s detection, and an attention can be provided to the next generations of CMOS retinas. In parallel, a detection and classification method based on convolutional neural networks is implemented. It consists of the creation of artificial images by integrating events over time, and to apply a transfer learning technique with a network trained on conventional images, made possible using dedicated data augmentation strategies to avoid overlearning. This network is then used to initialized tracking functions to determine the time to collision. This step uses the asynchronous advantage of event-based data, byestimating the movement locally through the computation of the optical flow. The simulation model of the sensor allows to test some algorithms and to evaluate the performance as a function of sensor’s parameters like the latency or the background noise. A prototype is set on test tracks to demonstrate that event-based tracking is much more efficient than image-based tracking. Finally, some attempts are tested to fuse the two modalities, and illustrate that the positioning of the target emitting the cooperative signal is complicated to manage without using the content of the conventional image. However, the classification and the tracking of the objects is improved in some cases thanks to the cooperative signal, which removes the density of a scene to be more focused on targets. This work, between sensors and algorithms, demonstrate how a cooperative vision system can be inserted into the perception function of autonomous vehicles to guarantee an optimal level of performances.

Abstract FR:

La perception monoculaire par caméra est un problème loin d’être résolu, qui oppose de nombreux acteurs et qui malgré des investissements massifs n’a toujours pas le niveau de performance requis pour les applications de conduite autonome. Si certaines fonctionnalités d’aides à la conduite laissent penser que l’attention du conducteur peut être réduite, ce n’est pas le cas en pratique car la question de la responsabilité repose encore sur les épaules du conducteur. Ce travail a pour objectif de construire une solution de vision frontale robuste, combinant plusieurs modalités, à travers l’utilisation d’un seul et même capteur. L’imageur retenu ici est la rétine CMOS, ou l’imageur événementiel, dont les pixels sont capables de détecter et d’horodater des changements relatifs de luminance, positifs ou négatifs. La fréquence d’acquisition des données est ainsi rythmée par la cinématique du scénario, qui peut être importante dans les scènes automobiles. Les deux modalités extraites du capteur sont d’un coté l’utilisation d’algorithmes conventionnels de traitement d’image, et de l’autre la détection de signaux modulés à haute fréquence émis par les cibles, et caractérisant également l’état ou l’orientation de l’objet. Il est d’abord question dans ce travail de mesurer les paramètres des rétines CMOS, pour d’une part les simuler et de l’autre évaluer leurs variations face à la dynamique de l’environnement des scénarios automobiles. Cette étape s’articule autour de la mise en place d’un banc de caractérisation et d’un modèle de simulation du capteur capable de faire le lien avec les mesures réalisées sur banc. Ce dernier permet également de quantifier les performances des algorithmes de détection des signaux modulés développés, pour permettre de s’assurer que chaque détection correspond bien au signal recherché, et permet aussi d’optimiser la réponse du capteur face aux signaux coopératifs. La détection de ces signaux est démontrée par simulation et sur prototype, avec une portée supérieure à 150 mètres et une fréquence de modulation de 5 kHz. Les algorithmes proposés permettent de conserver un flux de données totalement asynchrone. Les verrous technologiques des rétines CMOS ont été identifiés pour cette fonction, et une attention particulière pourra être portée aux prochaines générations de ces capteurs. En parallèle, une méthode de détection et de classification de cible à base de réseaux de neurones convolutifs est mise en place. Elle consiste à créer des images artificielles en intégrant les événements au cours du temps, et d’opérer un transfert d’apprentissage avec une architecture entraı̂née sur des images conventionnelles, rendu possible en adaptant les méthodes d’entraı̂nement pour éviter le sur-apprentissage. Ce réseau permet ensuite d’initialiser les fonctions de suivi pour estimer le temps avant collision. Cette étape tire parti de la nature asynchrone des événements, en estimant le déplacement d’un objet dans le plan focal de manière événementielle via l’évaluation du flot optique local. Le modèle de simulation du capteur permet par ailleurs d’estimer les algorithmes testés et proposés face aux variation des paramètres de bruit et de latence du capteur. Un dispositif de test sur piste permet de montrer que le suivi événementiel est plus précis que le suivi basé sur les détections synchrones des cibles. Enfin, des pistes de fusion entre les deux modalités ont été testées,et montrent que l’apport de la détection des signaux modulés sur le positionnement de la cible correspondante est complexe à implémenter sans s’appuyer sur le contenu de l’image. En revanche, le suivi du mouvement basé sur les détections de signaux coopératifs permet dans certains cas de filtrer la densité de la scène, ce qui améliore les performances de suivi. (...)