Key points are not available for this paper at this time.
최근 여러 연구들은 모방 학습을 통해 오픈 소스 언어 모델을 개선하고, ChatGPT 및 GPT-4와 같은 최첨단 독점 모델의 합성 지침 데이터로 재훈련하려고 합니다. 그러나 합성 데이터의 본질적으로 노이즈가 포함되어 있어 오류가 있는 응답과 결함이 있는 추론으로 가득 찬 저품질 데이터가 상당히 존재합니다. 우리는 노이즈 데이터의 잠재적 해악을 직관적으로 이해하지만, 그 영향에 대한 정량적 이해는 부족합니다. 이 논문은 노이즈의 정도와 언어 모델에 미치는 영향 간의 상관관계를 탐구합니다. 우리는 먼저 사실성 조절 가능(FACO) 데이터셋을 소개하며, 이 데이터셋은 해당 추론과 일치하는 실제 답변의 쌍과 잘못된 쌍으로 구성되어 있으며, 데이터셋의 허위 비율을 수동으로 제어할 수 있습니다. 광범위한 실험을 통해 데이터셋의 사실성과 지침 조정 간의 상관관계에서 여러 흥미로운 발견을 확인했습니다. 구체적으로, 지침의 허위성이 다양한 벤치마크 점수와 밀접한 관련이 있음을 검증했습니다. 또한, LLM이 잘못된 지침으로 훈련될 경우, 올바른 사용자 요청에 대한 답을 알고 있음에도 불구하고 거짓말을 하고 위조된 비충실한 답변을 생성하는 것을 배웁니다. 추가적으로, 언어 모델이 노이즈로 오염된 데이터셋으로 훈련되면 원래 성능을 복구하는 것이 가능하지만, 전체 성능에 도달하지 못했습니다.
현수 조 (몬,)은 이 질문을 연구했습니다.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: