Key points are not available for this paper at this time.
대규모 언어 모델(LLM)은 개방형 주제에 대해 사실을 묻는 질문에 답할 때 종종 사실 오류를 포함한 내용을 생성합니다. 개방 도메인에서 모델의 장문 사실성을 벤치마크하기 위해, 먼저 GPT-4를 사용해 38개 주제에 걸친 수천 개 질문으로 구성된 LongFact라는 프롬프트 세트를 생성했습니다. 그 다음, LLM 에이전트를 장문 사실성 평가를 위한 자동 평가자로 활용할 수 있음을 제안하며 이를 Search-Augmented Factuality Evaluator (SAFE)라고 명명했습니다. SAFE는 LLM을 이용해 장문의 응답을 개별 사실들로 분해하고, 각 사실의 정확성을 다단계 추론 과정—Google Search에 검색 쿼리를 보내고 검색 결과로 사실이 지지되는지 판단하는 절차—을 통해 평가합니다. 더 나아가, 장문 사실성의 종합 지표로서 F1 점수를 확장하는 방법을 제안합니다. 이를 위해, 응답 내 지지된 사실의 비율(정밀도)과 사용자가 선호하는 응답 길이를 나타내는 하이퍼파라미터에 대한 제공된 사실의 비율(재현율)의 균형을 맞춥니다. 경험적으로, LLM 에이전트가 인간 평가자 대비 초인적 평가 성능을 달성할 수 있음을 보였습니다 — 약 16,000개 개별 사실 세트에서 SAFE는 크라우드소싱된 인간 평가자와 72% 일치하며, 무작위로 선정된 100개 이견 사례 중 SAFE가 76% 우세를 보였습니다. 동시에 SAFE는 인간 평가자에 비해 20배 이상 저렴합니다. 또한, Gemini, GPT, Claude, PaLM-2의 네 가지 모델 계열에 걸쳐 13개 언어 모델을 LongFact에서 평가한 결과, 대형 언어 모델일수록 장문 사실성이 대체로 우수함을 확인했습니다. LongFact, SAFE 및 모든 실험 코드는 https://github.com/google-deepmind/long-form-factuality 에서 제공됩니다.
Wei et al. (수요일) 이 질문을 연구했습니다.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: