엔트로피 정규화를 통한 예측 가능한 간격 MDPs

Key Points

Key points are not available for this paper at this time.

Abstract

엔트로피를 이용한 제어 정책의 정규화는 실제 시스템의 예측 가능성을 조정하는 데 있어 중요한 역할을 할 수 있다. 이러한 접근 방식의 혜택을 받는 응용 프로그램은 최대한의 예측 불가능성을 목표로 하는 사이버 보안에서부터 예측 가능한 행동이 매우 바람직한 인간-로봇 상호작용에 이르기까지 다양하다. 본 논문에서는 간격 마르코프 결정 프로세스(IMDPs)를 위한 엔트로피 정규화를 고려한다. IMDPs는 전이 확률이 오직 구간에 속하는 불확실한 MDPs이다. 최근 IMDPs는 제어 설계를 위한 확률적 시스템을 추상화하는 맥락에서 상당한 인기를 얻고 있다. 본 연구에서는 IMDPs에서 엔트로피와 표준 누적 비용의 선형 조합을 견고하게 최소화하는 문제를 다루어 최적성과 예측 가능성 간의 균형을 설정한다. 최적 결정론적 정책이 존재함을 보여주고, 이를 계산하기 위한 가치 반복 알고리즘을 개발한다. 이 알고리즘은 각 단계에서 여러 개의 볼록 프로그램을 해결한다. 마지막으로, 설명 예제를 통해 IMDPs에서 엔트로피에 대한 페널티를 부과하는 이점을 보여준다.

엔트로피 정규화를 통한 예측 가능한 간격 MDPs

Key Points

Abstract

Cite This Study