Key points are not available for this paper at this time.
이 논문에서는 누적 제약을 만족시키면서 장기 보상을 극대화하는 것을 목표로 하는 실제 의사결정 문제를 해결하기 위해 강화 학습(RL) 알고리즘을 연구합니다. 내부점 방법에서 영감을 받아 목표에 로그 장벽 함수를 추가하는 새로운 1차 정책 최적화 방법인 내부점 정책 최적화(IPO)를 제안합니다. 우리가 제안하는 방법은 구현이 쉽고 성능 보장이 있으며 일반적인 유형의 누적 다중 제약 설정을 처리할 수 있습니다. 우리는 우리의 접근 방식을 최첨단 기준선과 비교하기 위해 광범위한 평가를 수행합니다. 우리의 알고리즘은 보상 극대화와 제약 충족 측면에서 기준선 알고리즘을 능가합니다.
Liu et al. (금요일) 이 질문을 연구했습니다.