Key points are not available for this paper at this time.
최근 언어 모델을 위한 선호 정렬 알고리즘이 유망한 결과를 보여주었지만, 감독 하에 미세 조정(SFT)은 성공적인 수렴을 달성하기 위해 여전히 필수적입니다. 본 논문에서는 선호 정렬의 맥락에서 SFT를 재조명하며, 불리한 스타일에 대한 경미한 페널티가 선호 정렬을 위해 충분하다는 점을 강조합니다. 이러한 기초 위에, 우리는 추가적인 선호 정렬 단계를 제거하는 간단한 참조 모델이 없는 단일 기저 배수 비율 선호 최적화 알고리즘인 ORPO를 소개합니다. 우리는 경험적 및 이론적으로 배수 비율이 다양한 규모(125M에서 7B까지)에서 SFT 동안 선호 스타일과 비선호 스타일을 대조하는 데 합리적인 선택임을 보여줍니다. 특히, ORPO를 사용한 UltraFeedback에 대한 Phi-2(2.7B), Llama-2(7B), Mistral(7B)의 미세 조정은 Llama-2 Chat 및 Zephyr와 같은 7B 이상 및 13B 파라미터를 가진 최신 언어 모델의 성능을 초과하여 AlpacaEval 2.0에서 최대 12.20% (그림 1) 및 MT-Bench에서 7.32 (표 2)를 달성합니다. 우리는 Mistral-ORPO- 및 Mistral-ORPO-의 코드 1 및 모델 체크포인트 2를 공개합니다.
홍 외 (Mon,)는 이 질문을 연구했습니다.