이 논문은 부분 관측 참조 정책 프로그래밍을 제안합니다. 이는 의미 있는 미래 이력을 깊게 샘플링하면서, 동시에 점진적인 정책 업데이트를 강제하는 새로운 온라인 근사 POMDP 해결기입니다. 우리는 알고리즘의 기본 체계에 대한 이론적 보장을 제공하며, 여기서 성능 손실이 보통 최대가 아니라 샘플링 근사 오차의 평균에 의해 제한된다고 말합니다. 이는 온라인 계획의 샘플링 희소성을 고려할 때 중요한 요구사항입니다. 다이나믹하게 진화하는 환경에서 두 개의 대규모 문제에 대한 실증적 평가 - 약 150개의 계획 단계를 요구하는 코르시카 지역의 헬리콥터 긴급 시나리오를 포함하여 - 이론적 결과를 입증하며, 우리의 해결기가 현재 온라인 기준보다 상당히 우수하다는 것을 나타냅니다.
김 외 (수), 이 질문을 연구했습니다.