August 15, 2024Open Access

밴딧 피드백 하의 단조 게임에서의 비연결 및 수렴 학습

Key Points

Key points are not available for this paper at this time.

Abstract

우리는 일반적인 단조 및 매끄러운 게임에 대한 후회 없는 학습 알고리즘과 그 마지막 반복 수렴 특성 문제를 연구합니다. 특히, 우리는 밴딧 피드백과 강하게 비연결 동역학 하에서 문제를 조사하며, 이는 광범위한 실제 응용 프로그램에 적용되는 다중 플레이어 시스템의 모듈식 개발을 가능하게 합니다. 우리는 O (T^-1/4)에서 수렴하고 또한 후회가 없는 미러-디센트 기반 알고리즘을 제안합니다. 이 결과는 두 가지 정규화를 전용으로 사용하고 그 고정점 분석을 통해 달성됩니다. 강한 단조 게임의 경우 수렴 속도는 O (T^-1/2)로 더 향상됩니다. 게임이 시간에 따라 진화하는 실용적인 작업에 의해 동기 부여를 받아, 알고리즘은 시간에 변하는 단조 게임으로 확장됩니다. 우리는 수렴 단조 게임에서 첫 번째 비점 근사 결과를 제공하고 균형 추적 게임에 대한 향상된 결과를 제시합니다.

밴딧 피드백 하의 단조 게임에서의 비연결 및 수렴 학습

Key Points

Abstract

Cite This Study

Also Consider

Also Consider