What type of study is this?

This is a Quantitative Study study.

September 29, 2025Open Access

ActiveDPO: 샘플 효율적인 직접 선호 최적화

Key Points

ActiveDPO는 대형 언어 모델의 정렬을 위한 데이터 선택을 효과적으로 개선하여 전체 성능을 향상시킵니다.
이 알고리즘은 특히 다양한 모델과 데이터셋에서 기존 방법들보다 우수한 결과를 보입니다.
비선형 보상 함수에 대한 이론적으로 기반이 있는 접근 방식을 사용하며, 인간의 선호의 중요성을 강조합니다.
이 연구는 고품질 선호 데이터셋의 효율적인 수집을 가능하게 하여 비용과 자원 사용을 줄일 수 있습니다.

Abstract

최근 인간의 선호를 사용하여 대형 언어 모델(LLM)의 정렬을 성공적으로 수행함으로써 질문 답변, 수학적 추론 및 코드 생성과 같은 다양한 하위 작업에서 성능이 크게 향상되었습니다. 그러나 효과적인 LLM 정렬은 고품질의 인간 선호 데이터셋에 의존합니다. 이러한 데이터셋을 수집하려면 인간 선호 주석이 필요하며, 이는 비용이 많이 들고 자원이 많이 소모되어 효율적인 능동 데이터 선택 방법이 필요합니다. 기존 방법들은 강력한 이론적 기반이 부족하거나 제한적인 보상 함수 가정(예: 선형성)에 의존합니다. 이를 위해 우리는 비선형 보상 함수에 대한 이론적으로 기반이 있는 데이터 선택 기준을 사용하고, 적극적 데이터 선택에 사용되는 보상 모델을 매개화하기 위해 LLM 자체를 직접 활용하는 알고리즘 ActiveDPO를 제안합니다. 그 결과, ActiveDPO는 LLM이 데이터 선택에 미치는 영향을 명시적으로 고려하며, 이는 정렬되고 있는 LLM을 고려하지 않고 데이터를 선택하는 방법과는 다릅니다. 따라서 더 효과적이고 효율적인 데이터 수집으로 이어집니다. 광범위한 실험 결과, ActiveDPO는 다양한 모델과 데이터셋에서 기존 방법보다 우수한 성능을 보입니다.

Read Full Paperexternally

AI에게 질문

Bookmark

View Full Paper