What question did this study set out to answer?

This research aims to improve empathetic dialogue generation by leveraging large language model preference signals.

June 11, 2026

Pairwise Empathetic Dialogue Generation via Automatic Large Language Model Preference Data Construction

Key Points

This research aims to improve empathetic dialogue generation by leveraging large language model preference signals.
Developed a pairwise learning framework utilizing a large language model to generate multiple candidate responses.
Refined candidates using Maximal Marginal Relevance and Jaccard similarity scoring.
Evaluated responses based on empathy, fluency, relevance, and reliability using a secondary language model to extract preference pairs.
The proposed model achieved superior performance in fluency (PPL) and diversity (Distinct-1/2) metrics compared to existing models.
Empathetic alignment was enhanced, with an improved Emp-F1 score confirmed through automatic preference data generation.

Abstract

최근 정서적 상호작용이 가능한 대화형 에이전트에 대한 수요가 증가함에 따라, 사용자의 감정과 상황을 반영하는 공감 대화 생성은 중요한 연구 주제로 부상하였다. 그러나 기존 지도학습 기반 공감 대화 생성은 단일 정답 모방에 치우쳐 안전하지만 단조로운 응답을 생성하는 경향이 있으며, 응답 간 상대적 공감 차이를 학습하기 어렵고, 고품질 공감 선호 데이터 구축 비용이 높다는 한계를 가진다. 본 연구는 이러한 문제를 해결하기 위해 거대 언어 모델의 선호도 신호를 활용한 페어와이즈(pairwise) 학습 기반 공감 대화 생성 프레임워크를 제안한다. 제안 방법은 (1) EmpatheticDialogues 기반으로 거대 언어 모델을 이용해 문맥별 다수 후보 응답을 생성한 뒤 Maximal Marginal Relevance(MMR) 및 Jaccard 유사도 기반 스코어링과 후보 재보충을 포함한 분기 반복 구조로 후보군을 정제하고, (2) 평가 거대 언어 모델이 공감도, 유창성, 적합성, 신뢰성 기준으로 후보 응답을 평가하여 Best/Worst 선호 쌍을 추출하며, (3) T5-base 생성기에 대해 가중치 기반 지도 미세 조정 후 Simple Preference Optimization(SimPO)을 적용하고 리랭커와 다중 프롬프트 기반 추론을 통해 최종 응답을 산출한다. 실험 결과, 제안 모델은 기존 감정 분석 기반/지식 기반/강화학습 기반 공감 대화 생성 모델 대비 유창성(PPL) 및 다양성(Distinct-1/2), 공감 정렬(Emp-F1) 지표에서 우수한 성능을 보였으며, 거대 언어 모델 기반 선호 데이터 자동 구축이 공감 능력 정렬과 데이터 효율성 측면에서 효과적임을 확인하였다.

Bookmark

Cite This Study

Lim et al. (Sun,) studied this question.

synapsesocial.com/papers/6a2a4ff180c8f91e7f39ca6c https://doi.org/https://doi.org/10.7838/kjdi.2026.31.2.035

Bookmark