Key points are not available for this paper at this time.
시차학습(Temporal difference, TD) 학습은 TD 타겟을 사용하여 상태 또는 상태-행동 쌍에 대한 값 추정치를 업데이트하는 강화 학습의 기본적인 기술입니다. 이 타겟은 즉각적인 보상과 이후 상태의 추정 값을 모두 포함하여 실제 값에 대한 향상된 추정치를 나타냅니다. 전통적으로 TD 학습은 단일 후속 상태의 값에 의존합니다. 우리는 여러 후속 상태의 추정 값을 활용하는 향상된 다중 상태 TD (MSTD) 타겟을 제안합니다. 이 새로운 MSTD 개념을 바탕으로, 우리는 두 가지 모드에서 재생 버퍼 관리가 포함된 완전한 액터-비평자 알고리즘을 개발하고, 딥 결정론적 정책 최적화(DDPG) 및 소프트 액터-비평자(SAC)와 통합합니다. 실험 결과는 MSTD 타겟을 사용하는 알고리즘이 전통적인 방법에 비해 학습 성능을 상당히 개선함을 보여줍니다.
Wang et al. (Sun,) 는 이 질문을 연구했습니다.