Jeux de stackelberg dynamiques : incoherence temporelle, triche et apprentissage
Abstract EN:
This thesis is concerned with diverse theoretical problems encountered within dynamic stackelberg games. It is organized in three parts. The first part is devoted to standard stackelberg game. In that part, the notion of time inconsistency is denned and its consequences are studied. We show with the help of numerical and economical examples that, contrary to an opinion widely spread in the literature, time inconsistent (discretionary) strategies are not always undesirable for the follower. The second part deals with reversed stackelberg game. These games offer the appropriate framework for the study of announcement effects and cheating phenomena. After having underlined the existence of a frequent confusion between time inconsistency and cheating, we show that credibility is possible only ex post, and that it is never easy to punish. Finally, we introduce the concept of an optimal cheating strategy and show that there are situations where both the leader and the follower can profit from the leader cheating. The last part of the thesis deals with genetic algorithms as a way to learn the stackelberg equilibrium. After showing their efficiency for on-line as well as for off-line learning, we study their possible use to simulate heterogeneous learning processes.
Abstract FR:
Cette these porte sur divers problemes theoriques dans le cadre des jeux dynamiques de stackelberg. Elle s'articule en trois parties. La premiere partie est consacree aux jeux standards de stackelberg. Entre autre, nous y definissons le concept d'incoherence temporelle et etudions les consequences d'une telle incoherence. A l'aide d'exemples numeriques et economiques, nous montrons que, contrairement a une opinion largement repandue dans la litterature, l'incoherence temporelle d'une strategie (i. E. La discretion) n'est pas toujours nefaste pour le suiveur. Elle peut donc etre desirable pour ce dernier. La deuxieme partie porte sur les jeux de stackelberg inverses. Ces jeux offrent un cadre approprie pour l'etude des effets d'annonce et des phenomenes de triche. Apres avoir releve l'existence d'une confusion frequente entre les notions de triche et d'incoherence temporelle, nous montrons que la credibilite n'est possible qu'ex post et qu'il n'est jamais facile de punir. Enfin, nous introduisons le concept d'une strategie de triche optimale et montrons qu'il existe des situations ou le leader et le suiveur peuvent tous deux trouver un avantage a ce que le leader triche. La derniere partie de la these traite de l'utilisation des algorithmes genetiques comme outil d'apprentissage des equilibres de stackelberg. Apres en avoir demontre l'efficacite, notamment pour des apprentissages en ligne, nous etudions leur possible utilisation comme moyen de simuler des processus d'apprentissage heterogene.