May 24, 2024Open Access

환각으로 인한 최적화를 통한 대규모 비전-언어 모델의 환각 완화

Key Points

Key points are not available for this paper at this time.

Abstract

대규모 비주얼 언어 모델(LVLMs)은 다중 모달 데이터를 이해하는 데 탁월한 능력을 보여주었지만, 이들은 불가피하게 환각으로 고통받아 생성된 텍스트와 해당 이미지 사이의 단절을 초래합니다. 현재의 거의 모든 비주얼 대비 디코딩 방법은 환각적인 로지트와 목표 로지트 간의 대비 로그갭을 적절히 넓히는 비주얼 불확실성 정보를 도입함으로써 이러한 환각을 완화하려고 합니다. 그러나 전반적인 비주얼 불확실성의 통제 불가능한 특성으로 인해 이들은 환각적인 토큰을 정확히 유도하는 데 어려움을 겪어, 환각 완화의 효과성이 심각하게 제한되며 원치 않는 환각을 생성하게 될 수도 있습니다. 이러한 문제를 해결하기 위해 우리는 대비 디코딩의 효과성을 촉진하기 위한 이론적 분석을 수행했습니다. 이 통찰력에 기반하여 환각 유도 최적화(Hallucination-Induced Optimization, HIO)라는 새로운 최적화 전략을 소개합니다. 이 전략은 세밀하게 조정된 이론적 선호 모델(즉, Contrary Bradley-Terry Model)에 의존하여 환각적인 토큰과 목표 토큰 간의 대비를 증폭하고, 이를 통해 LVLM의 환각 완화를 위해 효율적인 대비 디코딩을 촉진합니다. 광범위한 실험 연구에서는 우리의 HIO 전략이 LVLM에서 환각을 효과적으로 줄일 수 있음을 보여주며, 다양한 벤치마크에서 최신 방법을 능가함을 입증합니다.

Read Full Paperexternally

AI에게 질문

Bookmark

View Full Paper