Key points are not available for this paper at this time.
인터넷에 방대한 양의 텍스트 정보가 존재함에 따라 텍스트 요약 모델의 중요성이 커졌습니다. 추상적 요약은 요약할 원본 문서에 존재하지 않을 수 있는 원래의 단어와 문장을 생성합니다. 이러한 추상적 모델은 언어적 수용성 및 환각과 같은 단점에 시달릴 수 있습니다. Recall-Oriented Understudy for Gisting Evaluation (ROUGE)는 추상적 요약 모델을 평가하는 데 일반적으로 사용되는 지표입니다. 그러나 n-그램 기반 접근 방식으로 인해 여러 중요한 언어적 측면을 무시합니다. 본 연구에서는 최신의 사전 훈련된 언어 모델의 힘을 활용하여 추상적 텍스트 요약 모델을 평가하기 위한 자동화된 평가 지표인 유사성, 함의 및 수용성 점수(SEAScore)를 제안합니다. SEAScore는 후보 요약과 참조 요약에서 의미 있는 언어적 특징을 추출하는 세 개의 언어 모델(LM)과 평가 점수를 계산하는 가중합 집계기를 포함합니다. 실험 결과, 우리의 LM 기반 SEAScore 지표가 ROUGE-N 및 BERTScore와 같은 표준 평가 지표보다 인간의 판단과 더 잘 상관관계가 있음을 보여줍니다.
Briman et al. (Fri,)는 이 질문을 연구했습니다.
Synapse has enriched 3 closely related papers on similar clinical questions. Consider them for comparative context: