Apprentissage stratégique statistique
Institution:
Paris 13Disciplines:
Directors:
Abstract EN:
This thesis studies strategic interaction between several agents who are facing an exploration vs. Exploitation dilemma. In game theory, this situation is well described by models of bandit games. Each player faces a two-arm bandit machine, one arm being safe, the other being risky. At each stage of the game, each player has to decide which arm he uses. If he chooses the risky arm (exploration), he gets a random payoff which gives him partial information on the rentability of his machine. If he chooses the safe arm, he gets a known payoff, but possibly less than what he could have got from exploration. The rentability of the machine depends on an unknown state of the nature, which can be learnt from exploration. Learning is a strategic issue: for instance a player could benefit from others' information without taking risks himself. We study Nash equilibria of such games. We mainly wonder if equilibria are efficient: does a player gain significanlty more from strategic interaction than he would alone? Is there some kind of cooperation that helps getting more information? Do players manage to have a good knowledge of the state of the nature? This depends on what agents are able to see from each other (actions and/or payoffs), and also on how the types of the machines are correlated. We will also study the way equilibria are evolving when the number of players get large. In particular, we wonder if this increase leads to better pieces of information, and better gains.
Abstract FR:
On étudie l'interaction stratégique entre des agents face à un conflit entre exploration et exploitation. En théorie des jeux, les modèles de bandit-manchot sont particulièrement adaptés à ce problème. Chaque joueur fait face à une machine à deux bras, l'un étant sûr, l'autre risqué. A chaque étape du jeu, il décide quel bras activer. S'il parie sur le bras risqué (c'est-à-dire s'il « explore »), il reçoit un paiement aléatoire qui l'informe partiellement sur la rentabilité de sa machine. S'il choisit le bras sûr (c'est-à-dire s'il « exploite »), il reçoit un paiement connu, mais potentiellement plus faible que ce que pourrait rapporter l'exploration. La rentabilité des machines dépend d'un état de la nature inconnu, mais que l'on peut apprendre en explorant. L'apprentissage de cet état est un enjeu stratégique: un joueur peut par exemple tirer avantage de l'expérimentation des autres joueurs sans prendre de risques lui-même. La question principale est l'efficacité des équilibres de Nash: est-ce qu'un agent gagne plus en situation d'interaction stratégique que lorsqu'il est seul ? Existe-t-il une forme de coopération entre les joueurs ? Les joueurs parviennent-ils à un bon apprentissage de l'état la nature ? Nous montrons que cela dépend des possibilités d'observations entre les joueurs (i. E s'ils observent les paiements des autres, ou seulement les actions de ceux-ci), ainsi que de la manière dont les types de leurs machines sont corrélés. Nous verrons également comment évoluent les équilibres lorsque le nombre de joueurs devient important, et en particulier si cette augmentation se traduit par un afflux d’information et donc de meilleurs gains.