정책 스무딩 강화 학습을 위한 보상 인증 | Synapse