적대적 마르코프 의사결정 과정에서 온라인 학습을 위한 낙관적인 후회 경계 | Synapse