Key points are not available for this paper at this time.
모델 훈련의 효과는 사용 가능한 훈련 자원의 품질에 크게 의존합니다. 그러나 예산 제약은 데이터 수집 노력에 제한을 주는 경우가 많습니다. 이 문제를 해결하기 위해, 본 논문에서는 데이터 수집 및 모델 훈련을 위해 기초적인 인과 지식을 활용하는 전략인 인과 탐색을 제안합니다. 우리는 특히 작업 비의존 강화 학습 영역 내에서 세계 모델 학습의 샘플 효율성과 신뢰성을 향상시키는 데 초점을 맞춥니다. 탐색 단계에서 에이전트는 세계 모델 훈련에 가장 유익한 인과 통찰을 제공할 것으로 예상되는 행동을 능동적으로 선택합니다. 동시에, 인과 지식은 데이터 수집의 지속적인 과정을 통해 획득되고 점진적으로 정제됩니다. 우리는 인과 탐색이 더 적은 데이터로 정확한 세계 모델을 학습하는 데 도움을 주며 수렴에 대한 이론적 보장을 제공함을 입증합니다. 합성 데이터와 실제 응용 프로그램에 대한 경험적 실험은 인과 탐색의 이점을 추가적으로 검증합니다.
Yang et al. (Mon,)는 이 질문을 연구했습니다.