What type of study is this?

This is a Quantitative Study study.

October 10, 2025Open Access

D2 액터 비평가: 확산 액터와 분포적 비평가의 만남

Key Points

D2AC는 18개의 도전적인 강화 학습 작업에서 최첨단 성능을 달성하며 학습 안정성을 향상시킵니다.
새로운 정책 개선 목표는 강화 학습에서 발견되는 전통적인 정책 기울기의 높은 분산을 완화합니다.
견고한 분포적 비평가는 분포적 RL 기법과 클립된 더블 Q-학습의 혼합을 통해 모델을 향상시킵니다.
생물학적으로 영감을 받은 포식자-피식자 시나리오를 포함한 다양한 작업에 대한 평가가 중요한 행동적 강인성을 보여줍니다.

Abstract

우리는 효과적으로 표현력 있는 확산 정책을 온라인으로 훈련시키기 위해 설계된 새로운 모델 프리 강화 학습(RL) 알고리즘인 D2AC를 소개합니다. 이 알고리즘의 핵심은 전통적인 정책 기울기의 높은 분산과 시간에 따른 역전파의 복잡성을 피하는 정책 개선 목표입니다. 이 안정적인 학습 과정은 우리의 두 번째 기여인 견고한 분포적 비평가에 의해 비판적으로 활성화됩니다. 이 비평가는 분포적 RL과 클립된 더블 Q-학습의 융합을 통해 설계됩니다. 그 결과, 이 알고리즘은 Humanoid, Dog, Shadow Hand 도메인을 포함한 18개의 어려운 RL 작업 벤치마크에서 최첨단 성능을 달성하며, 밀집 보상 및 목표 조건 RL 시나리오를 아우릅니다. 표준 벤치마크를 넘어서, 우리는 생물학적으로 동기 부여된 포식자-피식자 작업을 평가하여 우리의 접근 방식의 행동적 강인성과 일반화 능력을 검토합니다.

D2 액터 비평가: 확산 액터와 분포적 비평가의 만남

Key Points

Abstract

Cite This Study