Key points are not available for this paper at this time.
정책 기반 방법은 어려운 강화 학습 문제를 해결하는 데 놀라운 성공을 거두었습니다. 이러한 방법 중에서, 오프 정책 정책 경량화 방법은 오프 정책 데이터를 활용할 수 있기 때문에 특히 중요합니다. 그러나 이러한 방법은 오프 정책 정책 경량화 (OPPG) 추정기의 높은 분산으로 인해 훈련 중 샘플 효율성이 떨어지는 문제를 겪습니다. 본 논문에서는 이러한 분산 문제를 완화하기 위해 최적 행동 의존 기초를 가진 오프 정책 정책 경량화 방법 (Off-OAB)을 제안합니다. 구체적으로, 이 기초는 OPPG 추정기의 편향을 유지하면서 이론적으로 그 분산을 최소화합니다. 실용적인 계산 효율성을 높이기 위해, 우리는 이 최적 기초의 근사 버전을 설계합니다. 이 근사를 활용하여, 우리의 방법 (Off-OAB)은 정책 최적화 과정에서 OPPG 추정기의 분산을 줄이는 것을 목표로 합니다. 우리는 제안된 Off-OAB 방법을 OpenAI Gym과 MuJoCo에서 여섯 개의 대표적인 과제에 대해 평가하였으며, 이 방법이 대부분의 과제에서 최첨단 방법들보다 뛰어난 성과를 보여주었습니다.
Meng 외 (Sat,)는 이 질문을 연구했습니다.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: