What type of study is this?

September 10, 2025Open Access

비전-언어 세밀 조정을 통한 설명 기반 캡션 신뢰도 향상

Key Points

CAPEV는 설명 신호를 활용하여 비전-언어 모델의 세밀 조정을 통해 캡션 신뢰성을 향상시킵니다.
Flickr30K 및 MSCOCO 벤치마크에서의 실험은 CAPEV가 객체 허위를 현저히 줄인다는 것을 보여줍니다.
이 접근 방식은 Layer-wise Relevance Propagation 및 Grad-CAM을 활용하여 이미지 캡셔닝의 해석 가능성을 향상시킵니다.
훈련에 설명 가능성을 통합하는 것은 보다 투명한 비전-언어 생성의 경로를 열어 줍니다.

Abstract

이미지 캡셔닝 모델은 주의 메커니즘과 변환기 기반 아키텍처의 도입으로 Remarkable한 발전을 이룩했습니다. 하지만 그 예측을 이해하고 진단하는 것은 여전히 어려운 과제이며 특히 귀속, 해석 가능성 및 허위 출력 완화 측면에서 그렇습니다. 본 연구에서는 캡션 신뢰성과 의미적 기준을 향상시키기 위해 Layer-wise Relevance Propagation (LRP)을 기반으로 한 새로운 설명 기반 세밀 조정 패러다임인 CAPEV를 소개합니다. 우리는 LRP, Grad-CAM 및 Guided Grad-CAM을 포함한 최첨단 설명 방법을 시스템적으로 이미지 캡셔닝 아키텍처에 적응시키는 것부터 시작합니다. 기존의 주의 열지도와 달리 이 gradient 기반 및 전파 기반 방법들은 이미지 영역에 대한 공간 픽셀 수준 귀속과 순차 입력 전반에 걸친 토큰 기준 언어적 관련성을 제공합니다. 철저한 비교를 통해 우리는 이러한 방법들이 모델의 결정 기반에 대해 보다 정밀하고 분리된 이해를 제공한다는 것을 발견했습니다. 이러한 통찰을 바탕으로 우리는 설명 신호를 활용하여 모델의 내부 표현을 재조정하는 추론 시간 세밀 조정 접근 방식인 CAPEV를 소개합니다. 각 단어 예측에 대한 지원 및 반대 관련 신호를 식별함으로써 CAPEV는 허위 개체를 억제하고 기초 콘텐츠를 강화하기 위해 동적으로 컨텍스트 기능을 조정합니다. 특히 CAPEV는 추가 외부 주석이나 인간 감독 없이 작동합니다. Flickr30K 및 MSCOCO 벤치마크에 대한 광범위한 실험은 CAPEV가 객체 허위를 현저히 줄이면서 캡션 유창성과 표준 평가 지표에 대한 전체 성능을 유지함을 보여줍니다. 우리의 연구 결과는 훈련 루프에 설명 가능성을 통합하는 것이 투명하고 신뢰할 수 있는 비전-언어 생성으로 나아가는 유망한 길을 열어 준다고 제안합니다.

Read Full Paperexternally

AI에게 질문

Bookmark

View Full Paper