Key points are not available for this paper at this time.
본 논문에서는 무한 수평의 비선형 제어 시스템을 고려할 때 연속 시간 (CT) 최적 제어 솔루션을 학습하기 위해 정책 반복에 기반한 두 가지 온라인 알고리즘에 대해 논의합니다. 우리는 처음으로 행위자/비평가 구조에 구현된 온라인 적응 알고리즘을 제시하며, 이는 행위자와 비평가 신경망의 동기화된 연속 시간 적응을 포함합니다. 이는 CT 시스템에 대한 일반화된 정책 반복의 한 형태입니다. 새로운 알고리즘에 기반한 최적 제어기에 대한 수렴이 증명되며 시스템의 안정성이 보장됩니다. 새로운 온라인 학습 알고리즘의 특성과 요구 사항은 이전에 개발한 CT 시스템을 위한 정규 온라인 정책 반복 알고리즘과 관련하여 논의됩니다. 후자는 행위자와 비평가 네트워크에 대해 순차적 업데이트를 수행하여 최적 제어 문제를 해결합니다. 즉, 하나가 학습하는 동안 다른 하나는 고정되어 있습니다. 대조적으로, 새로운 알고리즘은 행위자와 비평가 네트워크의 동시 적응에 의존합니다. 새로운 이론적 결과를 지원하기 위해 시뮬레이션 예제를 고려합니다.
Vamvoudakis et al. (Sun,)은 이 문제를 연구했습니다.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: