What type of study is this?

This is a Experimental Study study.

October 15, 2025Open Access

부분 관측 참조 정책 프로그래밍: 수치 최적화 없이 POMDP 해결하기

Key Points

제안된 알고리즘은 계획 중 샘플링 오류를 통해 제한된 성능 손실을 보장합니다.
실증 평가 결과, 다이나믹 시나리오에서 기존 온라인 기준보다 유의미한 성능 향상이 나타났습니다.
이 방법은 정책을 점진적으로 업데이트하여 희소하게 샘플링된 이력을 더 잘 처리합니다.
평가에는 약 150개의 계획 단계를 요구하는 헬리콥터 긴급 시나리오가 포함되었습니다.

Abstract

이 논문은 부분 관측 참조 정책 프로그래밍을 제안합니다. 이는 의미 있는 미래 이력을 깊게 샘플링하면서, 동시에 점진적인 정책 업데이트를 강제하는 새로운 온라인 근사 POMDP 해결기입니다. 우리는 알고리즘의 기본 체계에 대한 이론적 보장을 제공하며, 여기서 성능 손실이 보통 최대가 아니라 샘플링 근사 오차의 평균에 의해 제한된다고 말합니다. 이는 온라인 계획의 샘플링 희소성을 고려할 때 중요한 요구사항입니다. 다이나믹하게 진화하는 환경에서 두 개의 대규모 문제에 대한 실증적 평가 - 약 150개의 계획 단계를 요구하는 코르시카 지역의 헬리콥터 긴급 시나리오를 포함하여 - 이론적 결과를 입증하며, 우리의 해결기가 현재 온라인 기준보다 상당히 우수하다는 것을 나타냅니다.

부분 관측 참조 정책 프로그래밍: 수치 최적화 없이 POMDP 해결하기

Key Points

Abstract

Cite This Study