August 20, 2024Open Access

오프라인 모델 기반 강화 학습과 반탐색

Key Points

Key points are not available for this paper at this time.

Abstract

모델 기반 강화 학습(MBRL) 알고리즘은 수집된 데이터로부터 동역학 모델을 학습하고 이를 활용하여 합성 궤적을 생성하여 빠른 학습을 가능하게 합니다. 이는 데이터의 양이 제한적일 뿐 아니라 범위와 품질이 부족할 수 있는 오프라인 강화 학습(RL)에서 특히 유망한 패러다임입니다. 오프라인 MBRL에 대한 실용적인 접근법은 일반적으로 동역학 모델의 앙상블에 의존하여 개별 모델의 활용을 방지하고 데이터셋 지원에서 멀리 떨어진 상태 값에 패널티를 부여하는 불확실성 추정을 추출합니다. 앙상블의 불확실성 추정치는 규모가 크게 달라질 수 있어 비슷한 작업 간에 하이퍼파라미터를 잘 일반화하는 데 어려움을 줍니다. 본 논문에서는 오프라인 모델 프리 RL에서 발견되는 반탐색 패러다임을 모델 기반 공간으로 확장하는 Morse 모델 기반 오프라인 RL(MoMo)을 제시합니다. 우리는 MoMo의 모델 프리 및 모델 기반 변형을 개발하고, 모델 프리 버전이 대규모 앙상블 없이 명시적인 불확실성 추정을 사용하여 분포 외(OOD) 상태를 탐지하고 처리하는 방식으로 확장될 수 있는 방법을 보여줍니다. MoMo는 가치 과대 추정을 반전하기 위해 정책 제약과 결합한 반탐색 보너스를 사용하여 오프라인 MBRL을 수행하며, 과도하게 OOD인 합성 롤아웃을 종료하는 절단 함수도 포함됩니다. 실험적으로 우리는 모델 프리 및 모델 기반 MoMo가 모두 잘 작동하며, 후자는 테스트된 대부분의 D4RL 데이터 세트에서 이전 모델 기반 및 모델 프리 기준선을 능가한다는 것을 발견했습니다.

오프라인 모델 기반 강화 학습과 반탐색

Key Points

Abstract

Cite This Study

Also Consider

Also Consider