What type of study is this?

This is a Quantitative Study study.

September 20, 2025

D3: 다양성, 난이도 및 신뢰성 기반 데이터 선택을 통한 샘플 효율적인 LLM 교육 조정

Key Points

D3는 데이터셋의 10% 미만을 사용하여 경쟁적인 지침 준수 능력을 달성합니다.
주요 혁신에는 다양성과 난이도에 대한 점수 매기기와 외부 LLM을 통한 신뢰성 평가가 포함됩니다.
D3는 데이터 품질 측면에 따라 선택 프로세스를 최적화하는 동질 집합 목적을 사용합니다.
이 방법은 공개 데이터셋과 Taobao Live와 같은 실제 응용 프로그램에서 입증됩니다.

Abstract

최근 대형 언어 모델(LLM)에 대한 교육 조정에서의 발전은 작은 고품질 데이터셋이 LLM에 지침 준수 능력을 상당히 제공할 수 있다는 것을 시사하며, 이는 품질과 중복 문제로 종종 부담이 되는 대규모 데이터셋을 초월합니다. 그러나 문제는 대규모 데이터셋에서 귀중한 하위 집합을 자동으로 식별하여 교육 조정의 효과성과 효율성을 모두 증대시키는 데 있습니다. 이 논문에서는 데이터 가치의 세 가지 뚜렷한 측면인 다양성, 난이도, 신뢰성을 바탕으로 데이터 선택 기준을 설정하고, 점수 매기기와 선택의 두 가지 주요 단계를 포함하는 D3 방법을 제안합니다. 특히 점수 매기기 단계에서는 샘플의 독특성을 측정하기 위해 다양성 함수를 정의하고, 맥락 지향적인 생성 다양성의 간섭을 완화하여 샘플의 난이도를 평가하기 위해 불확실성 기반 예측 난이도를 도입합니다. 또한, 신뢰성 평가를 위한 외부 LLM을 통합합니다. 선택 단계에서는 데이터 가치의 세 가지 측면을 자율적으로 최적화하여 가장 귀중한 하위 집합을 해결하는 D3 가중 동질 집합 목적을 수립합니다. D3의 두 단계는 여러 차례 반복될 수 있으며, 피드백을 통해 선택 초점을 조정적으로 다듬습니다. 공개 데이터셋과 실제 Taobao Live 응용 프로그램에 대한 실험은 전체 데이터셋의 10% 미만을 사용하여 LLM에 경쟁적 또는 우수한 지침 준수 능력을 부여하는 D3의 효과를 입증합니다.

Bookmark

D3: 다양성, 난이도 및 신뢰성 기반 데이터 선택을 통한 샘플 효율적인 LLM 교육 조정

Key Points

Abstract

Cite This Study

Also Consider

Also Consider