Key points are not available for this paper at this time.
강화 학습 알고리즘은 일반적으로 조밀하고 잘 형성된 보상 함수가 없으면 어려움을 겪습니다. 내재적으로 동기 부여된 탐색 방법은 에이전트가 새로운 상태나 전이를 방문할 때 보상을 줌으로써 이 한계를 해결하지만, 이러한 방법은 대부분 발견된 새로움이 하위 작업과는 관련이 없는 대규모 환경에서는 제한된 이점을 제공합니다. 우리는 텍스트 말뭉치의 배경 지식을 활용하여 탐색을 형성하는 방법을 설명합니다. 이 방법은 ELLM(대규모 언어 모델을 통한 탐색)이라고 하며, 에이전트의 현재 상태에 대한 설명으로 제시된 목표를 달성하기 위해 에이전트에 보상을 제공합니다. 대규모 언어 모델 사전 훈련을 활용함으로써, ELLM은 인간의 개입 없이도 에이전트를 의미 있는 인간 행동과 그럴듯한 유용한 행동으로 안내합니다. 우리는 Crafter 게임 환경과 Housekeep 로봇 시뮬레이터에서 ELLM을 평가하여, ELLM으로 훈련된 에이전트가 사전 훈련 동안 상식 행동을 더 잘 커버하며 일반적으로 다양한 하위 작업에서 성능을 일치시키거나 향상시킨다는 것을 보여줍니다. 코드의 경우 https://github.com/yuqingd/ellm 에서 확인할 수 있습니다.
Du 외 (Mon,)는 이 질문을 연구했습니다.