Key points are not available for this paper at this time.
Retrieval-Augmented Generation (RAG) 시스템은 대규모 언어 모델(LLM)의 환각을 완화하는 데 있어 그 장점을 입증했습니다. 기존 RAG 벤치마크는 주로 LLM이 일반 지식에 대해 올바르게 답변할 수 있는지를 평가하는 데 집중하고 있습니다. 그러나 이들은 다양한 수직 도메인에서 데이터 처리를 위한 RAG 시스템의 효과성을 평가할 수 없습니다. 본 논문은 다양한 시나리오에서 다양한 LLM의 지식 사용 능력을 평가하기 위해 평가 데이터셋을 자동으로 생성하는 RAGEval 프레임워크를 소개합니다. 구체적으로 RAGEval은 시드 문서에서 스키마를 요약하고, 구성에 따라 다양한 문서를 생성하며, 기사와 구성에 따라 질문-답변 쌍을 구성합니다. 우리는 LLM이 생성한 응답을 신중하게 평가하기 위해 Completeness, Hallucination 및 Irrelevance의 세 가지 새로운 메트릭을 제안합니다. 수직 도메인에서 RAG 모델을 벤치마킹하여 RAGEval은 LLM의 지식 사용 능력을 보다 잘 평가할 수 있는 능력을 가지며, 기존 QA 데이터셋에서 질문에 대한 답변의 지식 출처에 대한 혼란을 피합니다—즉, 그것이 매개변수화된 메모리에서 발생한 것인지, 검색에서 발생한 것인지 여부입니다. 코드와 데이터셋은 공개될 예정입니다.
Zhu et al. (Fri,)는 이 질문을 연구했습니다.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: