Key points are not available for this paper at this time.
모델 프리 강화 학습(RL)은 이미지 관찰로부터 아타리 게임과 같은 복잡한 작업에 대한 효과적인 정책을 학습하는 데 사용될 수 있습니다. 그러나 이는 일반적으로 매우 많은 상호작용을 요구합니다. 사실, 이는 인간이 동일한 게임을 배우는 데 필요한 것보다 상당히 더 많습니다. 사람들이 그렇게 빠르게 학습할 수 있는 이유는 무엇일까요? 그 답의 일부는 사람들이 게임이 어떻게 작동하는지 배우고 어떤 행동이 바람직한 결과를 가져올지를 예측할 수 있기 때문일 수 있습니다. 본 논문에서는 비디오 예측 모델이 모델 프리 방법보다 적은 상호작용으로 아타리 게임을 해결하는 데 어떻게 에이전트를 지원할 수 있는지를 탐구합니다. 우리는 비디오 예측 모델에 기반한 완전한 모델 기반 딥 RL 알고리즘인 시뮬레이티드 정책 학습(SimPLe)을 설명하고, 우리의 설정에서 최상의 결과를 내는 새로운 아키텍처를 포함한 여러 모델 아키텍처에 대한 비교를 제공합니다. 우리의 실험은 100k 상호작용의 저데이터 환경에서 다양한 아타리 게임에서 SimPLe을 평가하며, 이는 실제 플레이로 약 두 시간에 해당합니다. 대부분의 게임에서 SimPLe은 최신 모델 프리 알고리즘보다 우수한 성능을 발휘하며, 일부 게임에서는 10배 이상의 차이를 보입니다.
Kaiser et al. (Fri,)은 이 질문을 연구했습니다.