Key points are not available for this paper at this time.
대형 언어 모델이 소비자 지향 애플리케이션으로 빠르게 이동하고 있는 반면, 여전히 사실 오류와 환각에 취약한 경우가 많습니다. 이러한 오류로 인한 잠재적 피해를 줄이기 위해서는 사용자가 사실 주장을 할 때 LLM을 어느 정도 신뢰할 수 있는지를 아는 것이 중요합니다. 이를 위해 우리는 장문 자연어 생성에서 사실 정확성의 불확실성 정량화 문제를 연구합니다. 대형 언어 모델의 일부 출력이 주어졌을 때, 우리는 출력 내 개별 주장 수준의 불확실성(교정 방법을 통해)과 전체 출력 자체의 불확실성(일치 예측 방법을 통해)을 모두 연구합니다. 또한, 다중 교정 및 다중 유효 일치 예측을 통해 이러한 불확실성 보장이 한정적으로나 서로 다른 프롬프트 그룹간에 유효하도록 합니다. 전기 생성 작업을 사용하여, 각 프롬프트에 대해 추가 그룹 속성에 접근하고 이를 활용함으로써 전체 성능 및 그룹별 성능이 향상된다는 것을 경험적으로 입증합니다. 교정, 일치 예측 및 그들의 다중 그룹 대응 문제는 장문 텍스트 생성 맥락에서 광범위하게 탐구되지 않았기 때문에, 우리는 이러한 경험적 결과가 이 설정에 대한 기준이 될 것으로 간주합니다.
Liu et al. (수), 이 질문을 연구했습니다.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: