Key points are not available for this paper at this time.
고전적인 다중 에이전트 강화 학습(MARL)은 에이전트의 위험 중립성과 완전한 객관성을 가정합니다. 그러나 에이전트가 인간의 경제적 또는 사회적 선호를 고려하거나 모델링해야 하는 환경에서는 위험의 개념이 RL 최적화 문제에 통합되어야 합니다. 이는 다른 인간 또는 비인간 에이전트가 관련된 MARL에서 더욱 중요할 것이며, 이들은 자신의 위험 민감 정책을 가질 수 있습니다. 이 작업에서는 누적 전망 이론(CPT)을 사용하는 위험 민감 비협력 MARL을 고려하며, CPT는 비볼록 위험 측정치이며 일관된 위험 측정치의 일반화입니다. CPT는 인간의 손실 회피를 설명하는 능력이 있으며, 작은/큰 확률을 과대/과소 평가하는 경향을 보여줍니다. 우리는 네트워크 집합 마르코프 게임(NAMGs)을 위해 CPT 위험을 가진 분산 샘플링 기반 액터-비평가(AC) 알고리즘, 즉 분산 중첩 CPT-AC를 제안합니다. 일련의 가정에 따라, 우리는 알고리즘이 NAMGs에서 주관적인 마르코프 완벽 내쉬 균형으로 수렴함을 증명합니다. 실험 결과는 우리의 알고리즘에 의해 얻어진 주관적인 CPT 정책이 위험 중립 정책과 다를 수 있으며, 더 높은 손실 회피를 가진 에이전트가 NAMG에서 사회적으로 고립되는 경향이 더 크다는 것을 보여줍니다.
Ghaemi et al. (Thu,)는 이 질문을 연구했습니다.