Key points are not available for this paper at this time.
정책 외 평가(OPE)는 목표 정책의 영향을 배포 전에 오프라인으로 평가하는 데 중요합니다. 그러나 대규모 상태 공간에서 정확한 OPE를 달성하는 것은 여전히 도전 과제가 됩니다. 이 논문은 OPE의 맥락에서 정책 학습을 위해 원래 설계된 상태 추상화를 연구합니다. 우리의 기여는 세 가지입니다: (i) OPE를 위한 상태 추상화 학습에 중심이 되는 무관성 조건의 집합을 정의합니다. (ii) 관측된 MDP를 기반으로 시간 역전 마르코프 결정 과정(MDP)을 구성하여 얻은 마르지널화된 중요도 샘플링 비율과 Q-함수에서 무관성을 달성하기 위한 충분 조건을 도출합니다. (iii) 높은 기수에서 발생하는 OPE의 샘플 복잡성을 상당히 단순화하는 소규모 공간으로 원래 상태 공간을 순차적으로 투사하는 새로운 두 단계 절차를 제안합니다.
Hao et al. (Thu,)는 이 질문을 연구했습니다.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: