Key points are not available for this paper at this time.
결정론적 시스템에서 강화 학습 기반의 온라인 근사 최적 제어 방법은 일반적으로 수렴을 위한 제한적인 자극 지속성(PE) 조건을 요구합니다. 본 논문은 PE의 필요성을 없애는 온라인 근사 최적 조절 문제에 대한 동시 학습 기반의 해결책을 제시합니다. 이 개발은 시스템 모델이 주어졌을 때, 최적 해밀토니안에서 시스템 해밀토니안의 편차를 정량화하는 벨만 오차가 상태 공간의 어느 지점에서든 평가될 수 있다는 관찰에 기반합니다. 또한, 식물 동역학의 매개변수 불확실성을 보완하기 위해 동시 학습 기반의 매개변수 식별기가 개발되었습니다. 시스템 상태가 원점으로 균일하게 궁극적으로 제한(UUB) 수렴하고 개발된 정책이 근사 최적 정책으로 UUB 수렴함을 리야푸노프 기반 분석을 사용하여 확립하고, 개발된 컨트롤러의 성능을 입증하기 위해 시뮬레이션을 수행합니다.
Kamalapurkar et al. (Sun,) 이 문제를 연구했습니다.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: