March 27, 2024Open Access

대규모 언어 모델의 장문 사실성

Key Points

Key points are not available for this paper at this time.

Abstract

대규모 언어 모델(LLM)은 개방형 주제에 대해 사실을 묻는 질문에 답할 때 종종 사실 오류를 포함한 내용을 생성합니다. 개방 도메인에서 모델의 장문 사실성을 벤치마크하기 위해, 먼저 GPT-4를 사용해 38개 주제에 걸친 수천 개 질문으로 구성된 LongFact라는 프롬프트 세트를 생성했습니다. 그 다음, LLM 에이전트를 장문 사실성 평가를 위한 자동 평가자로 활용할 수 있음을 제안하며 이를 Search-Augmented Factuality Evaluator (SAFE)라고 명명했습니다. SAFE는 LLM을 이용해 장문의 응답을 개별 사실들로 분해하고, 각 사실의 정확성을 다단계 추론 과정—Google Search에 검색 쿼리를 보내고 검색 결과로 사실이 지지되는지 판단하는 절차—을 통해 평가합니다. 더 나아가, 장문 사실성의 종합 지표로서 F1 점수를 확장하는 방법을 제안합니다. 이를 위해, 응답 내 지지된 사실의 비율(정밀도)과 사용자가 선호하는 응답 길이를 나타내는 하이퍼파라미터에 대한 제공된 사실의 비율(재현율)의 균형을 맞춥니다. 경험적으로, LLM 에이전트가 인간 평가자 대비 초인적 평가 성능을 달성할 수 있음을 보였습니다 — 약 16,000개 개별 사실 세트에서 SAFE는 크라우드소싱된 인간 평가자와 72% 일치하며, 무작위로 선정된 100개 이견 사례 중 SAFE가 76% 우세를 보였습니다. 동시에 SAFE는 인간 평가자에 비해 20배 이상 저렴합니다. 또한, Gemini, GPT, Claude, PaLM-2의 네 가지 모델 계열에 걸쳐 13개 언어 모델을 LongFact에서 평가한 결과, 대형 언어 모델일수록 장문 사실성이 대체로 우수함을 확인했습니다. LongFact, SAFE 및 모든 실험 코드는 https://github.com/google-deepmind/long-form-factuality 에서 제공됩니다.

Read Full Paperexternally

Bookmark

View Full Paper

Cite This Study

Wei et al. (수요일) 이 질문을 연구했습니다.

synapsesocial.com/papers/68e7220eb6db64358769bc99 https://doi.org/https://doi.org/10.48550/arxiv.2403.18802

Also Consider

Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context:

Bookmark

View Full Paper