불안정한 다중 팔 밴디트에서의 글로벌 보상

Key Points

Key points are not available for this paper at this time.

Abstract

불안정한 다중 팔 밴디트(RMAB)는 다중 팔 밴디트를 확장하여 팔을 당기는 것이 미래 상태에 영향을 미치도록 합니다. RMAB의 성공에도 불구하고, 주요 제한 가정은 보상이 팔을 넘어서 총합으로 분리될 수 있다는 것입니다. 우리는 글로벌 비가분 보상을 가진 불안정한 다중 팔 밴디트(RMAB-G)를 제안하여 이 결점을 해결합니다. RMAB-G를 해결하기 위해, 우리는 RMAB에서 RMAB-G로 Whittle 지수를 확장하는 선형 지수 및 셰플리-휘틀 지수를 개발했습니다. 우리는 근사 경계를 증명하지만 보상 함수가 매우 비선형일 때 이러한 지수가 실패할 수 있는 방법도 지적합니다. 이를 극복하기 위해 두 가지 적응형 정책 세트를 제안합니다: 첫 번째는 지수를 반복적으로 계산하고, 두 번째는 몬테카를로 트리 탐색(MCTS)과 지수를 결합합니다. 실증적으로, 우리는 제안한 정책들이 합성 데이터와 음식 구출의 실제 데이터에서 기준선 및 지수 기반 정책보다 우수하다는 것을 보여줍니다.

불안정한 다중 팔 밴디트에서의 글로벌 보상

Key Points

Abstract

Cite This Study

Also Consider

Also Consider