January 16, 2013Open Access

요소화 MDP를 위한 정책 반복

Key Points

Key points are not available for this paper at this time.

Abstract

많은 대규모 MDP는 동적 베이지안 네트워크를 사용하여 간결하게 표현될 수 있습니다. 가치 함수의 구조는 프로세스의 구조를 유지하지 않지만, 최근 연구에서는 요소화 MDP에서의 가치 함수는 종종 제한된 기저 함수의 선형 조합을 사용하여 잘 근사될 수 있음을 보여주었습니다. 각 기저 함수는 소규모 변수 집합을 참조합니다. 특정 정책에 대한 근사 가치 함수는 근사 동적 프로그래밍을 사용하여 계산될 수 있지만, 이 방법(및 기타 방법)은 현재 정책의 정지 분포에 의해 가중치가 부여된 거리 메트릭에 상대적인 근사만을 생성할 수 있습니다. 이러한 유형의 가중치가 부여된 투사는 정책 개선에 적합하지 않습니다. 우리는 어떤 가중치에 대해서도 가치 함수에 대한 최소 자승 분해 근사를 직접 계산하기 위해 간단한 닫힌 형태 계산을 사용하는 새로운 가치 결정 접근법을 제시합니다. 그런 다음 이 가치 결정 알고리즘을 정책 반복 과정의 서브루틴으로 사용합니다. 우리는 합리적인 제한 하에, 요소화된 가치 함수에 의해 유도된 정책들이 간결하게 표현되며 정책 반복 과정에서 효율적으로 조작될 수 있음을 보여줍니다. 우리는 또한 함수 최적화를 위한 변수 제거 알고리즘을 사용하여 분해된 가치 함수에 대한 오류 경계를 계산하는 방법을 제시합니다. 우리의 모든 알고리즘의 복잡성은 시스템 역학과 근사 가치 함수의 분해에 따라 달라집니다.

AI에게 질문

Bookmark

View Full Paper