Key points are not available for this paper at this time.
직접 선호 최적화(Direct Preference Optimization, DPO)는 보상 모델의 필요성을 제거하고 인간 선호 데이터 세트에서 직접 훈련함으로써 대형 언어 모델(LLM)의 인간 가치 정렬을 개선합니다. 그러나 교차 도메인 인간 선호가 존재하므로 직접적 지속 학습은 재앙적인 망각을 초래하여 DPO의 성능과 효율성을 제한할 수 있습니다. 종 내 경쟁이 종의 진화를 촉진하는 데 영감을 받아, 우리는 선호 정렬을 위한 온라인 빠른-느린 추적 DPO(Online Fast-Slow chasing DPO, OFS-DPO)를 제안하며, 모델 간의 빠른 추적과 느린 추적을 통해 경쟁을 시뮬레이션하여 빠른 적응을 촉진합니다. 구체적으로, 우리는 먼저 온라인 학습을 위한 후회 상한을 도출하고, 최소-최대 최적화 패턴으로 우리의 동기를 검증합니다. 이를 바탕으로, 우리는 각각 서로 다른 최적화 속도를 가진 두 개의 동일한 모듈을 Low-rank Adaptive(LoRA)를 사용하여 도입하여 종 내 경쟁을 시뮬레이션하고, 그들의 학습을 안내하기 위한 새로운 규제 항을 제안합니다. 교차 도메인 시나리오에서 재앙적인 망각을 더 완화하기 위해, 우리는 LoRA 모듈 조합 전략으로 OFS-DPO를 확장하여 교차 도메인 온라인 빠른-느린 추적 DPO(COFS-DPO)를 결과합니다. 이 방법은 서로 다른 작업 도메인에서 빠른 모듈 매개변수의 선형 조합을 활용하여 역사적 정보를 완전히 이용하고 지속적인 가치 정렬을 달성합니다. 실험 결과는 OFS-DPO가 도메인 내 정렬에서 DPO보다 우수하며, COFS-DPO가 교차 도메인 지속 학습 시나리오에서 뛰어나다고 보여줍니다.
Qi et al. (Sat,)는 이 문제를 연구했습니다.