우리는 효과적으로 표현력 있는 확산 정책을 온라인으로 훈련시키기 위해 설계된 새로운 모델 프리 강화 학습(RL) 알고리즘인 D2AC를 소개합니다. 이 알고리즘의 핵심은 전통적인 정책 기울기의 높은 분산과 시간에 따른 역전파의 복잡성을 피하는 정책 개선 목표입니다. 이 안정적인 학습 과정은 우리의 두 번째 기여인 견고한 분포적 비평가에 의해 비판적으로 활성화됩니다. 이 비평가는 분포적 RL과 클립된 더블 Q-학습의 융합을 통해 설계됩니다. 그 결과, 이 알고리즘은 Humanoid, Dog, Shadow Hand 도메인을 포함한 18개의 어려운 RL 작업 벤치마크에서 최첨단 성능을 달성하며, 밀집 보상 및 목표 조건 RL 시나리오를 아우릅니다. 표준 벤치마크를 넘어서, 우리는 생물학적으로 동기 부여된 포식자-피식자 작업을 평가하여 우리의 접근 방식의 행동적 강인성과 일반화 능력을 검토합니다.
Zhang et al. (금요일,)은 이 질문을 연구했습니다.