Key points are not available for this paper at this time.
엔트로피를 이용한 제어 정책의 정규화는 실제 시스템의 예측 가능성을 조정하는 데 있어 중요한 역할을 할 수 있다. 이러한 접근 방식의 혜택을 받는 응용 프로그램은 최대한의 예측 불가능성을 목표로 하는 사이버 보안에서부터 예측 가능한 행동이 매우 바람직한 인간-로봇 상호작용에 이르기까지 다양하다. 본 논문에서는 간격 마르코프 결정 프로세스(IMDPs)를 위한 엔트로피 정규화를 고려한다. IMDPs는 전이 확률이 오직 구간에 속하는 불확실한 MDPs이다. 최근 IMDPs는 제어 설계를 위한 확률적 시스템을 추상화하는 맥락에서 상당한 인기를 얻고 있다. 본 연구에서는 IMDPs에서 엔트로피와 표준 누적 비용의 선형 조합을 견고하게 최소화하는 문제를 다루어 최적성과 예측 가능성 간의 균형을 설정한다. 최적 결정론적 정책이 존재함을 보여주고, 이를 계산하기 위한 가치 반복 알고리즘을 개발한다. 이 알고리즘은 각 단계에서 여러 개의 볼록 프로그램을 해결한다. 마지막으로, 설명 예제를 통해 IMDPs에서 엔트로피에 대한 페널티를 부과하는 이점을 보여준다.
Zutphen et al. (Mon,)은 이 질문을 연구하였다.