Key points are not available for this paper at this time.
탐험-활용 딜레마는 강화 학습에서 오랫동안 중요한 문제였습니다. 이 논문에서는 두 가지 사이에서 자동으로 균형을 유지하는 새로운 접근 방식을 제안합니다. 우리의 방법은 원래 작업 보상과 정책 엔트로피를 균형 있게 조절하는 '엔트로피 온도'를 사용하는 소프트 액터-크리틱(SAC) 알고리즘을 기반으로 합니다. SAC는 이 하이퍼파라미터에 매우 민감하다는 것이 경험적으로 입증되었으며, 자동 조정을 위한 제약 최적화를 사용하는 후속 작업(SAC-v2)은 몇 가지 한계가 있습니다. 우리 방법의 핵심인 메타-SAC는 메타 목표와 함께 메타 그래디언트를 사용하여 SAC의 엔트로피 온도를 자동으로 조정하는 것입니다. 우리는 메타-SAC가 여러 뮤조코 벤치마킹 작업에서 유망한 성능을 달성하며, 가장 도전적인 작업 중 하나인 humanoid-v2에서 SAC-v2를 10% 이상 초월함을 보여줍니다.
Wang et al. (금요일)이 이 문제를 연구했습니다.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: