이미지 캡셔닝 모델은 주의 메커니즘과 변환기 기반 아키텍처의 도입으로 Remarkable한 발전을 이룩했습니다. 하지만 그 예측을 이해하고 진단하는 것은 여전히 어려운 과제이며 특히 귀속, 해석 가능성 및 허위 출력 완화 측면에서 그렇습니다. 본 연구에서는 캡션 신뢰성과 의미적 기준을 향상시키기 위해 Layer-wise Relevance Propagation (LRP)을 기반으로 한 새로운 설명 기반 세밀 조정 패러다임인 CAPEV를 소개합니다. 우리는 LRP, Grad-CAM 및 Guided Grad-CAM을 포함한 최첨단 설명 방법을 시스템적으로 이미지 캡셔닝 아키텍처에 적응시키는 것부터 시작합니다. 기존의 주의 열지도와 달리 이 gradient 기반 및 전파 기반 방법들은 이미지 영역에 대한 공간 픽셀 수준 귀속과 순차 입력 전반에 걸친 토큰 기준 언어적 관련성을 제공합니다. 철저한 비교를 통해 우리는 이러한 방법들이 모델의 결정 기반에 대해 보다 정밀하고 분리된 이해를 제공한다는 것을 발견했습니다. 이러한 통찰을 바탕으로 우리는 설명 신호를 활용하여 모델의 내부 표현을 재조정하는 추론 시간 세밀 조정 접근 방식인 CAPEV를 소개합니다. 각 단어 예측에 대한 지원 및 반대 관련 신호를 식별함으로써 CAPEV는 허위 개체를 억제하고 기초 콘텐츠를 강화하기 위해 동적으로 컨텍스트 기능을 조정합니다. 특히 CAPEV는 추가 외부 주석이나 인간 감독 없이 작동합니다. Flickr30K 및 MSCOCO 벤치마크에 대한 광범위한 실험은 CAPEV가 객체 허위를 현저히 줄이면서 캡션 유창성과 표준 평가 지표에 대한 전체 성능을 유지함을 보여줍니다. 우리의 연구 결과는 훈련 루프에 설명 가능성을 통합하는 것이 투명하고 신뢰할 수 있는 비전-언어 생성으로 나아가는 유망한 길을 열어 준다고 제안합니다.
Müller et al. (금요일,)은 이 질문을 연구했습니다.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: