단계 제어 DPO: 단계적 오류를 활용한 향상된 수학적 추론 | Synapse