최근 대형 언어 모델(LLM)에 대한 교육 조정에서의 발전은 작은 고품질 데이터셋이 LLM에 지침 준수 능력을 상당히 제공할 수 있다는 것을 시사하며, 이는 품질과 중복 문제로 종종 부담이 되는 대규모 데이터셋을 초월합니다. 그러나 문제는 대규모 데이터셋에서 귀중한 하위 집합을 자동으로 식별하여 교육 조정의 효과성과 효율성을 모두 증대시키는 데 있습니다. 이 논문에서는 데이터 가치의 세 가지 뚜렷한 측면인 다양성, 난이도, 신뢰성을 바탕으로 데이터 선택 기준을 설정하고, 점수 매기기와 선택의 두 가지 주요 단계를 포함하는 D3 방법을 제안합니다. 특히 점수 매기기 단계에서는 샘플의 독특성을 측정하기 위해 다양성 함수를 정의하고, 맥락 지향적인 생성 다양성의 간섭을 완화하여 샘플의 난이도를 평가하기 위해 불확실성 기반 예측 난이도를 도입합니다. 또한, 신뢰성 평가를 위한 외부 LLM을 통합합니다. 선택 단계에서는 데이터 가치의 세 가지 측면을 자율적으로 최적화하여 가장 귀중한 하위 집합을 해결하는 D3 가중 동질 집합 목적을 수립합니다. D3의 두 단계는 여러 차례 반복될 수 있으며, 피드백을 통해 선택 초점을 조정적으로 다듬습니다. 공개 데이터셋과 실제 Taobao Live 응용 프로그램에 대한 실험은 전체 데이터셋의 10% 미만을 사용하여 LLM에 경쟁적 또는 우수한 지침 준수 능력을 부여하는 D3의 효과를 입증합니다.
Zhang et al. (Mon,)은 이 질문을 연구했다.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: