Quatre Essais en Économie Numérique : Biais des Algorithmes et Données Personnelles
Institution:
université Paris-SaclayDisciplines:
Directors:
Abstract EN:
A cornerstone of the data-driven economy is the ubiquity of algorithms as a decision-making aid. Although they are designed to improve and accelerate information processing, the opacity of algorithmic systems raises concerns. In this thesis, we investigate through counterfactual evidence, the determinants of algorithmic decision-making and the sources of potentially biased outcomes on several digital ad venues. Chapter 1 focuses on understanding how to reduce algorithmic biases linked to gender. We run a series of field tests on Facebook to study how the advertiser's intention to attract a particular group of users via a targeted message may have unintended effects on algorithmic ad display. The results show the importance of using a gender-oriented message to reach female audiences and reduce the ad display gap between men and women when the ads relate to IT realm. Chapter 2 takes advantage of the insights into the operation of content algorithms available to advertisers to understand some potential sources of distortion. We use three versions of the same set of ad campaigns on two different digital ad venues (Facebook and Snapchat) to study how algorithms allocate pictorial content that display gender. There is suggestive evidence that algorithms are driven by preferences in large population centers, as well algorithms' sensitivity to random events, particularly in the context of data scarcity which impacts the length of the algorithm’s learning phase. Chapter 3 examines an algorithmic approach to regulate political advertising in the context of the COVID-19 pandemic. The results suggest that ads run by governmental organizations to inform the population about COVID-19 are more likely to be banned by Facebook's algorithm than ads run by non-governmental organization. In a context of uncertainty as to the sufficient level of guarantee on personal data, chapter 4 studies the existence of a market for personal data. Through a field experiment involving 2,000 websites, the results suggest that personal data sharing does not affect the behavior of American websites, but it does for French websites. There is also evidence of personal data sharing between market players.Showing that by accelerating algorithmic learning, algorithms learn from non-representative data constitutes our main policy implications.
Abstract FR:
Une pierre angulaire de l'économie basée sur les données est l'omniprésence des algorithmes comme outil d'aide à la décision. Bien qu'ils soient conçus pour améliorer et accélérer le traitement de l'information, l'opacité des systèmes algorithmiques soulève des inquiétudes. Dans cette thèse, nous étudions à travers des preuves contrefactuelles, les déterminants de la prise de décision algorithmique et les sources de résultats potentiellement biaisés. Le chapitre 1 se concentre sur les moyens de réduire les biais algorithmiques liés au genre. Nous effectuons une série de tests in situ sur Facebook pour étudier comment l'intention de l'annonceur d'attirer un groupe particulier d'utilisateurs via un message ciblé peut avoir des effets indésirables sur l'affichage algorithmique des publicités. Les résultats montrent l'importance d'utiliser un message axé sur le genre pour toucher le public féminin et réduire l'écart d'affichage des publicités entre les hommes et les femmes lorsque les publicités concernent le domaine de l'informatique. Le chapitre 2 tire parti des informations sur le fonctionnement des algorithmes de contenu disponibles par les annonceurs pour comprendre certaines sources potentielles de distorsion. Nous utilisons trois versions du même ensemble de campagnes publicitaires sur deux réseaux sociaux différents (Facebook et Snapchat) pour étudier comment les algorithmes distribuent un contenu qui inclus le genre. Il existe des preuves suggérant que les algorithmes sont dictés par les préférences d'individus situés dans les grands centres de population, ainsi que par la sensibilité des algorithmes aux événements aléatoires, en particulier en cas de rareté de données qui a une incidence sur la durée de la phase d'apprentissage de l'algorithme. Le chapitre 3 examine une approche algorithmique pour réguler la publicité politique dans le contexte de la pandémie COVID-19. Les résultats suggèrent que les publicités diffusées par des organisations gouvernementales pour informer la population sur le COVID-19 sont plus susceptibles d'être interdites par l'algorithme de Facebook que les publicités diffusées par des organisations non gouvernementales. Dans un contexte d'incertitude quant au niveau suffisant de garantie des données personnelles, le chapitre 4 étudie l'existence d'un marché pour les données personnelles. À travers une expérience de terrain impliquant 2000 sites internet, les résultats suggèrent que le partage de données personnelles n'affecte pas le comportement des sites internet américains, mais celui des sites internet français. Il existe également des preuves de partage de données personnelles entre les sites internet. L'accélération de l'apprentissage algorithmique résultant en un apprentissage à partir de données non représentatives constitue notre principale implication en terme de politique publique.