thesis

Mémorisation et apprentissage de structures d'indexation avec les réseaux de neurones

Defense date:

Oct. 8, 2020

Edit

Disciplines:

Abstract EN:

Machine learning systems, and in particular deep neural networks, aretrained on large quantities of data. In computer vision for instance, convolutionalneural networks used for image classification, scene recognition,and object detection, are trained on datasets which size ranges from tensof thousands to billions of samples. Deep parametric models have a largecapacity, often in the order of magnitude of the number of datapoints.In this thesis, we are interested in the memorization aspect of neuralnetworks, under two complementary angles: explicit memorization,i.e. memorization of all samples of a set, and implicit memorization,that happens inadvertently while training models. Considering explicitmemorization, we build a neural network to perform approximate setmembership, and show that the capacity of such a neural network scaleslinearly with the number of data points. Given such a linear scaling, weresort to another construction for set membership, in which we build aneural network to produce compact codes, and perform nearest neighborsearch among the compact codes, thereby separating “distribution learning”(the neural network) from storing samples (the compact codes), theformer being independent of the number of samples and the latter scalinglinearly with a small constant. This nearest neighbor system performs amore generic task, and can be plugged in to perform set membership.In the second part of this thesis, we analyze the “unintended” memorizationthat happens during training, and assess if a particular data pointwas used to train a model (membership inference). We perform empiricalmembership inference on large networks, on both individual and groupsof samples. We derive the Bayes-optimal membership inference, andconstruct several approximations that lead to state-of-the-art results inmembership attacks. Finally, we design a new technique, radioactive data,that slightly modifies datasets such that any model trained on them bearsan identifiable mark

Abstract FR:

Les systèmes d’apprentissage machine, et en particulier les systèmes dits d’apprentissage profond, nécessitent de grandes quantités de données pour l’entraînement. En vision par ordinateur, les réseaux de neurones convolutionnels utilisés pour la classification d’images, la reconnaissance de scènes et la détection d’objets notamment sont entrainés sur des jeux de données dont la taille se situe entre quelques dizaines de milliers et quelques milliards d’exemples. Les modèles paramétriques ont une très large capacité, souvent du même ordre de grandeur que le nombre d’exemples. Dans cette thèse, nous nous intéressons aux aspects de mémorisation présents dans les réseaux de neurones, sous deux angles complémentaires:la mémorisation explicite, c’est-à-dire la mémorisation de tous les éléments d’un jeu de données et la mémorisation implicite, qui apparaît de façon non intentionnelle pendant l’apprentissage. Concernant la mémorisation explicite, nous proposons dans cette thèse un réseau de neurones qui approxime la fonction indicatrice d’un ensemble, et nous montrons que la capacité d’un tel réseau passe à l’échelle linéairement avec la taille de l’ensemble. Nous proposons alors une construction alternative pour l’appartenance à un ensemble, dans laquelle nous construisons un réseau de neurones qui produit des codes compacts, puis un système de recherche de plus proches voisins parmi ces codes compacts, séparant l’apprentissage de la distribution (fait par le réseau) du stockage des points individuels(les codes compacts), le premier étant indépendant du nombre d’exemples,et le deuxième passant à l’échelle linéairement en le nombre d’exemples.Ce système de recherche de plus proches voisins implémente une fonction plus générale, et peut être utilisé pour inférer l’appartenance à un ensemble.Dans la deuxième partie de cette thèse, nous nous intéressons à la mémorisation involontaire, et déterminons pour chaque exemple s’il faisait partie du jeu de données d’entraînement (inférence de l’appartenance). Nous effectuons une inférence empirique de l’appartenance sur de gros réseaux, à la fois sur des exemples isolés et sur des groupes d’exemples. Nous développons une analyse de l’inférence de l’appartenance, qui conduit à l’inférence Bayes-optimale; nous construisons plusieurs approximations qui donnent lieu à des résultats état de l’art en attaques d’appartenance. Enfin, nous élaborons une nouvelle technique dite de données radioactives, qui modifie légèrement des jeux de données afin que n’importe quel modèle entraîné sur ces données porte une marque identifiable.