Key points are not available for this paper at this time.
강화 학습(RL)은 환경이 지속적으로 밀집된 보상 값을 제공하는 작업을 해결하는 데 널리 사용되어 왔습니다. 그러나 실제 세계의 시나리오에서는 보상이 종종 잘 정의되지 않거나 희소할 수 있습니다. 보조 신호는 효율적인 탐색 전략을 발견하고 학습 과정을 돕는 데 필수적입니다. 본 연구에서는 내재적 동기 이론에 영감을 받아, 새로움과 놀라움이라는 내재적 자극이 복잡하고 희소한 보상 환경에서의 탐색 개선에 기여할 수 있다고 가정합니다. 우리는 픽셀에서 직접 학습할 수 있는 새로운 샘플 효율적인 방법인 NaSA-TD3를 소개합니다. NaSA-TD3는 오토인코더를 사용하는 TD3의 이미지 기반 확장입니다. 실험 결과 NaSA-TD3는 훈련이 쉽고 복잡한 연속 제어 로봇 작업을 해결하는 데 효율적인 방법임을 보여주며, 시뮬레이션 환경과 실제 환경 모두에서 적용 가능합니다. NaSA-TD3는 사전 훈련된 모델이나 인간 시연 없이도 최종 성능 측면에서 기존의 최첨단 RL 이미지 기반 방법을 능가합니다.
Valencia et al. (Wed,)이 이 질문을 연구했습니다.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: