Key points are not available for this paper at this time.
임상 자연어 생성(NLG)의 진화하는 환경에서, 추상적 텍스트 품질 평가가 여전히 어려운 문제로 남아 있으며, 기존 방법들은 종종 생성 과제의 복잡성을 간과합니다. 본 연구는 의료 분야에서 NLG의 자동 평가 지표의 현재 상태를 조사하는 것을 목표로 했습니다. 이러한 지표의 정렬을 검토하기 위해 강력하고 잘 검증된 기준선을 갖추기 위해 포괄적인 인간 평가 프레임워크를 만들었습니다. ChatGPT-3.5-turbo 생성 출력을 사용하여 각 지표와 인간 판단 간의 상관관계를 분석했습니다. 어떤 지표도 높은 일치를 보이지 않았으나, SapBERT 점수(통합 의료 언어 시스템, UMLS)는 가장 좋은 결과를 보였습니다. 이는 평가 노력에 도메인 특정 지식을 통합하는 것의 중요성을 강조합니다. 우리 연구는 생성된 텍스트에 대한 품질 평가의 결함을 드러내고, 포괄적인 인간 평가 프레임워크를 기준선으로 제안합니다. 향후 노력은 자동화된 지표의 정렬을 향상시키기 위해 의료 지식 데이터베이스 통합을 우선시해야 하며, 특히 SapBERT 점수를 개선된 평가를 위해 정제하는 데 초점을 맞추어야 합니다.
Croxford et al. (목요일)이 이 질문을 연구했습니다.