May 3, 2024Open Access

적대적 마르코프 결정 과정에서 온라인 학습을 위한 낙관적 후회 경계

Key Points

Key points are not available for this paper at this time.

Abstract

적대적 마르코프 결정 과정(AMDP)은 로봇 공학 및 추천 시스템과 같은 의사결정 응용에서 알려지지 않았고 변동하는 과제를 다루는 학습 프레임워크입니다. 그러나 AMDP 공식의 주요 제한점은 비용 함수가 에피소드마다 변할 수 있음에도 불구하고 많은 환경에서 진화가 적대적이지 않다는 점에서 비관적인 후회 분석 결과에 있습니다. 이를 해결하기 위해, 우리는 비용 예측기 집합을 활용하면서 후회를 최소화하는 새로운 AMDP 변형을 소개하고 연구합니다. 이 설정에 대해, 우리는 높은 확률로 아종선형 낙관적 후회를 달성하는 새로운 정책 탐색 방법을 개발하였으며, 이는 비용 예측기의 추정 능력에 따라 점진적으로 악화되는 후회 경계입니다. 이러한 낙관적 후회 경계를 세우는 것은 다음과 같은 이유로 간단하지 않습니다: (i) 기존의 중요도 가중 비용 추정기가 낙관적 경계를 세우는 데 적합하지 않음을 우리가 입증하였고, (ii) AMDP의 피드백 모델은 기존 낙관적 온라인 학습 연구들과 달리(더 현실적) 다릅니다. 특히, 우리의 결과는 비용 예측기를 활용하고 제한적인 가정을 두지 않으면서 높은 확률의 후회 분석을 가능하게 하는 새롭고 낙관적으로 편향된 비용 추정기를 개발한 데 의존합니다. 우리는 또한 제안된 체계의 실용적 확장에 대해 논의하고 수치적으로 그 효율성을 입증합니다.

적대적 마르코프 결정 과정에서 온라인 학습을 위한 낙관적 후회 경계

Key Points

Abstract

Cite This Study

Also Consider

Also Consider