Key points are not available for this paper at this time.
안전 제어기의 공식적인 합성은 안전이 중요한 사이버 물리 시스템에 필수적입니다. 이 논문에서는 훈련 과정의 효율성을 개선하면서 안전 속성을 보장하기 위해 베이지안 최적화 강화 학습을 사용하여 비선형 시스템의 안전 제어기를 합성하기 위한 새로운 반례 유도 접근 방식을 제안합니다. 먼저, 제어 장벽 함수 기법을 활용하여 제약된 마르코프 결정 프로세스를 설정하고, 이를 통해 최소한의 안전 위반으로 초기 제어기를 학습합니다. 그 후, 실패 경로를 기반으로 초기 제어기를 미세 조정하기 위해 베이지안 최적화를 이용한 반례 유도 정책 개선을 설계합니다. 마지막으로, 조정된 제어기가 안전 속성을 보장하도록 수정할 수 있는 보상 메커니즘을 제안합니다. CEGRLPR 도구를 구현하고 일련의 벤치마크에서 성능을 평가합니다. 실험 결과는 우리의 접근 방식의 효과성과 효율성을 입증합니다.
진 외 (Thu,)는 이 질문을 연구했습니다.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: