최근 정서적 상호작용이 가능한 대화형 에이전트에 대한 수요가 증가함에 따라, 사용자의 감정과 상황을 반영하는 공감 대화 생성은 중요한 연구 주제로 부상하였다. 그러나 기존 지도학습 기반 공감 대화 생성은 단일 정답 모방에 치우쳐 안전하지만 단조로운 응답을 생성하는 경향이 있으며, 응답 간 상대적 공감 차이를 학습하기 어렵고, 고품질 공감 선호 데이터 구축 비용이 높다는 한계를 가진다. 본 연구는 이러한 문제를 해결하기 위해 거대 언어 모델의 선호도 신호를 활용한 페어와이즈(pairwise) 학습 기반 공감 대화 생성 프레임워크를 제안한다. 제안 방법은 (1) EmpatheticDialogues 기반으로 거대 언어 모델을 이용해 문맥별 다수 후보 응답을 생성한 뒤 Maximal Marginal Relevance(MMR) 및 Jaccard 유사도 기반 스코어링과 후보 재보충을 포함한 분기 반복 구조로 후보군을 정제하고, (2) 평가 거대 언어 모델이 공감도, 유창성, 적합성, 신뢰성 기준으로 후보 응답을 평가하여 Best/Worst 선호 쌍을 추출하며, (3) T5-base 생성기에 대해 가중치 기반 지도 미세 조정 후 Simple Preference Optimization(SimPO)을 적용하고 리랭커와 다중 프롬프트 기반 추론을 통해 최종 응답을 산출한다. 실험 결과, 제안 모델은 기존 감정 분석 기반/지식 기반/강화학습 기반 공감 대화 생성 모델 대비 유창성(PPL) 및 다양성(Distinct-1/2), 공감 정렬(Emp-F1) 지표에서 우수한 성능을 보였으며, 거대 언어 모델 기반 선호 데이터 자동 구축이 공감 능력 정렬과 데이터 효율성 측면에서 효과적임을 확인하였다.
Lim et al. (Sun,) studied this question.