HeterGNN, PEGASUS-X 등 기존 학술 논문 요약 모델들이 텍스트 위주의 접근을 취하는 가운데, 최근 GPT-4o, Gemini-2.5 등 멀티모달 언어 모델의 등장으로 도표와 표 등 시각적 정보를 활용한 요약 성능 향상에 대한 관심이 증가하고 있다. 그러나 기존 연구들은 멀티모달 정보 추가가 성능 향상을 보장한다는 가설을 체계적으로 검증하지 않았다. 본 연구는 GPT-4o, Grok-2, Gemini-2.5를 활용하여 논문의 텍스트, 도표, 표를 다양한 조합으로 구성한 멀티모달 요약의 효과를 체계적으로 분석하였다. 실험 결과, GPT-4o와 Gemini-2.5에서는 각각 6.8%와 5.9%의 성능 향상을 보인 반면 Grok-2에서는 5.2% 감소하여 모델별 상이한 결과를 확인하였다. 이를 통해 멀티모달 정보 추가가 항상 성능 향상을 보장하지 않으며, 기존 평가 지표의 한계를 발견하고 새로운 평가 프레임워크의 필요성을 제시하였다.
Ju et al. (Sat,) studied this question.