March 6, 2024Open Access

최소한의 인간 노력을 통해 고품질의 교육 데이터 및 평가 기준을 신속하게 개발하기: 일본어에 대한 사례 연구

Key Points

Key points are not available for this paper at this time.

Abstract

대형 언어 모델을 위한 교육 데이터 및 평가 기준의 생성은 종종 막대한 인간 주석 작업을 필요로 합니다. 이 문제는 일본어와 같은 비영어권 언어를 위한 자원을 신속하게 개발할 때 특히 두드러집니다. 기존의 영어 자원을 일본어로 직접 번역하는 일반적인 관행(예: 일본어-알파카)을 따르는 대신, 우리는 GPT-4 기반의 효율적인 자기 지시 방법을 제안합니다. 먼저 소량의 영어 지시 사항을 일본어로 번역하고 이를 후편집하여 원어민 수준의 품질을 얻습니다. 이후 GPT-4는 이를 데모로 사용하여 자동으로 일본어 지시 데이터를 생성합니다. 우리는 또한 8개 범주에 걸쳐 80개의 질문을 포함하는 평가 기준을 구성하여, 인간 참조 없이 LLM의 응답 품질을 자동으로 평가하는 데 GPT-4를 사용합니다. 실증 결과는 우리 GPT-4 자기 지시 데이터로 미세 조정된 모델이 일본어-알파카를 모든 세 가지 기본 사전 훈련 모델에서 상당히 능가했음을 나타냅니다. 우리 GPT-4 자기 지시 데이터는 LLaMA 13B 모델이 GPT-3.5(Davinci-003)를 54.37% 승률로 이길 수 있게 했습니다. 인간 평가는 GPT-4의 평가와 인간 선호 간의 일관성을 보여줍니다. 우리의 고품질 교육 데이터와 평가 기준은 여기에서 공개되었습니다.

Read Full Paperexternally

AI에게 질문

Bookmark

View Full Paper