May 23, 2022

작업 성과를 포함한 방해 주입 강인 모방 학습

Key Points

Key points are not available for this paper at this time.

Abstract

방해 주입을 이용한 강인 모방 학습은 시연의 제한된 변동성 문제를 극복합니다. 그러나 이러한 방법은 시연이 최적이라고 가정하고, 정책 안정화가 단순 증강을 통해 학습될 수 있다고 가정합니다. 실제 상황에서는 시연이 종종 다양한 품질을 가지고 있으며, 방해 주입은 대신 원하는 행동을 복제하지 못하는 비최적 정책을 학습합니다. 이 문제를 해결하기 위해 본 논문은 정책 강인화와 최적 시연 학습을 결합한 새로운 모방 학습 프레임워크를 제안합니다. 구체적으로, 이 조합 접근 방식은 정책 학습과 방해 주입 최적화가 주로 작업 성과가 높은 시연에서 학습하도록 강제하며, 낮은 성과의 시연을 이용하여 필요한 샘플 수를 줄이는 데 초점을 맞춥니다. 이 제안된 방법의 효과는 시뮬레이션과 실제 로봇을 사용한 발굴 작업 실험을 통해 검증되어, 다양한 품질의 시연에 대해 더 안정적이고 강인한 고성능 정책을 생성합니다. 또한, 이 방법은 모든 가중치가 부여된 비최적 시연을 제거하지 않고 활용하여 실질적인 데이터 효율성 이점을 제공합니다.

AI에게 질문

Bookmark