December 1, 2013

동시 학습 기반의 근사 최적 조절

Key Points

Key points are not available for this paper at this time.

Abstract

결정론적 시스템에서 강화 학습 기반의 온라인 근사 최적 제어 방법은 일반적으로 수렴을 위한 제한적인 자극 지속성(PE) 조건을 요구합니다. 본 논문은 PE의 필요성을 없애는 온라인 근사 최적 조절 문제에 대한 동시 학습 기반의 해결책을 제시합니다. 이 개발은 시스템 모델이 주어졌을 때, 최적 해밀토니안에서 시스템 해밀토니안의 편차를 정량화하는 벨만 오차가 상태 공간의 어느 지점에서든 평가될 수 있다는 관찰에 기반합니다. 또한, 식물 동역학의 매개변수 불확실성을 보완하기 위해 동시 학습 기반의 매개변수 식별기가 개발되었습니다. 시스템 상태가 원점으로 균일하게 궁극적으로 제한(UUB) 수렴하고 개발된 정책이 근사 최적 정책으로 UUB 수렴함을 리야푸노프 기반 분석을 사용하여 확립하고, 개발된 컨트롤러의 성능을 입증하기 위해 시뮬레이션을 수행합니다.

AI에게 질문

Bookmark