Key points are not available for this paper at this time.
적대적 모방 학습(AIL)은 보상 함수 업데이트 중 현재 정책의 성능을 평가하기 위해 충분한 온 정책 데이터를 의존하기 때문에 샘플 비효율성 문제에 직면해 있습니다. 본 연구에서는 오프 정책 AIL 알고리즘의 수렴 특성과 샘플 복잡성을 연구합니다. K가 정책 업데이트 및 보상 업데이트의 반복 횟수일 때, 가장 최근의 o (K) 정책에서 생성된 샘플을 재사용해도 이 클래스 알고리즘의 수렴 보장이 약화되지 않음을 보여줍니다. 또한, 우리의 결과는 오프 정책 업데이트로 인해 유도된 분포 이동 오류는 더 많은 데이터가 사용 가능해지는 혜택에 의해 지배된다는 것을 나타냅니다. 이 결과는 오프 정책 AIL 알고리즘의 샘플 효율성을 이론적으로 뒷받침합니다. 우리가 아는 한, 이는 오프 정책 AIL 알고리즘에 대한 이론적 보장을 제공하는 첫 번째 연구입니다.
Chen et al. (Sun,)은 이 질문을 연구했습니다.