Key points are not available for this paper at this time.
Cet article aborde l'apprentissage avers au risque dans des jeux convexes impliquant plusieurs agents qui cherchent à minimiser leur risque individuel d'encourir des coûts substantiellement élevés. Plus précisément, les agents adoptent la valeur conditionnelle à risque (CVaR) comme mesure de risque avec des niveaux de risque potentiellement différents. Pour résoudre ce problème, nous proposons un algorithme d'apprentissage avers au risque de premier ordre, dans lequel l'estimation du gradient de la CVaR dépend d'une estimation de la valeur à risque (VaR) combinée avec le gradient de la fonction de coût stochastique. Bien que l'estimation des gradients de CVaR à partir d'un nombre fini d'échantillons soit généralement biaisée, nous montrons que l'erreur accumulée des estimations des gradients de CVaR est bornée avec une forte probabilité. De plus, en supposant que le jeu avers au risque est fortement monotone, nous montrons que l'algorithme proposé converge vers l'équilibre de Nash avers au risque. Nous présentons des expériences numériques sur un exemple de jeu de Cournot pour illustrer la performance de la méthode proposée.
Wang et al. (Fri,) ont étudié cette question.