Key points are not available for this paper at this time.
직접 선호 최적화(Direct Preference Optimization, DPO)는 추론 및 정렬과 같은 하류 작업에서 대형 언어 모델(LLM)의 성능을 향상시키는 데 효과적임이 입증되었습니다. 본 연구에서는 지정한 단계에서 오류를 발생시키는 수학적 추론 합리화의 부정 샘플을 생성하여 단계적 오류 감독을 자동으로 제공하는 방법인 단계 제어 DPO(SCDPO)를 제안합니다. 이러한 샘플을 DPO 훈련에 적용함으로써, SCDPO는 모델이 추론 오류를 이해하고 정확한 추론 단계를 출력하도록 보다 잘 일치시킬 수 있습니다. 우리는 SCDPO를 코드 통합 및 사고의 연쇄 솔루션에 적용하여, 기존의 SFT 모델 1개와 우리가 미세 조정한 2개의 모델을 포함하여, 단순한 DPO에 비해 성능이 일관되게 향상되는 것을 실증적으로 보여줍니다. SCDPO와 DPO의 신용 할당에 대한 정성적 분석은 SCDPO가 수학 솔루션에서 오류를 식별하는 데 효과적임을 보여줍니다. 이후 SCDPO를 InternLM2-20B 모델에 적용하여, 20B 모델이 GSM8K에서 88.5%, MATH에서 58.1%라는 높은 점수를 달성하며 모든 다른 오픈소스 LLM에 필적하는 결과를 보여, 우리의 방법의 큰 잠재력을 증명합니다.
Lu et al. (Sun)이 이 문제를 연구했습니다.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: