최근 인간의 선호를 사용하여 대형 언어 모델(LLM)의 정렬을 성공적으로 수행함으로써 질문 답변, 수학적 추론 및 코드 생성과 같은 다양한 하위 작업에서 성능이 크게 향상되었습니다. 그러나 효과적인 LLM 정렬은 고품질의 인간 선호 데이터셋에 의존합니다. 이러한 데이터셋을 수집하려면 인간 선호 주석이 필요하며, 이는 비용이 많이 들고 자원이 많이 소모되어 효율적인 능동 데이터 선택 방법이 필요합니다. 기존 방법들은 강력한 이론적 기반이 부족하거나 제한적인 보상 함수 가정(예: 선형성)에 의존합니다. 이를 위해 우리는 비선형 보상 함수에 대한 이론적으로 기반이 있는 데이터 선택 기준을 사용하고, 적극적 데이터 선택에 사용되는 보상 모델을 매개화하기 위해 LLM 자체를 직접 활용하는 알고리즘 ActiveDPO를 제안합니다. 그 결과, ActiveDPO는 LLM이 데이터 선택에 미치는 영향을 명시적으로 고려하며, 이는 정렬되고 있는 LLM을 고려하지 않고 데이터를 선택하는 방법과는 다릅니다. 따라서 더 효과적이고 효율적인 데이터 수집으로 이어집니다. 광범위한 실험 결과, ActiveDPO는 다양한 모델과 데이터셋에서 기존 방법보다 우수한 성능을 보입니다.
Lin et al. (Sun,)은 이 질문을 연구했습니다.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: