May 26, 2024Open Access

수렴 보장이 있는 입증 가능한 효율적 오프 정책 적대적 모방 학습

Key Points

Key points are not available for this paper at this time.

Abstract

적대적 모방 학습(AIL)은 보상 함수 업데이트 중 현재 정책의 성능을 평가하기 위해 충분한 온 정책 데이터를 의존하기 때문에 샘플 비효율성 문제에 직면해 있습니다. 본 연구에서는 오프 정책 AIL 알고리즘의 수렴 특성과 샘플 복잡성을 연구합니다. K가 정책 업데이트 및 보상 업데이트의 반복 횟수일 때, 가장 최근의 o (K) 정책에서 생성된 샘플을 재사용해도 이 클래스 알고리즘의 수렴 보장이 약화되지 않음을 보여줍니다. 또한, 우리의 결과는 오프 정책 업데이트로 인해 유도된 분포 이동 오류는 더 많은 데이터가 사용 가능해지는 혜택에 의해 지배된다는 것을 나타냅니다. 이 결과는 오프 정책 AIL 알고리즘의 샘플 효율성을 이론적으로 뒷받침합니다. 우리가 아는 한, 이는 오프 정책 AIL 알고리즘에 대한 이론적 보장을 제공하는 첫 번째 연구입니다.

Read Full Paperexternally

AI에게 질문

Bookmark

View Full Paper