What type of study is this?

This is a Experimental Study study.

September 29, 2025Open Access

앵커링된 확산 언어 모델

Key Points

앵커링된 확산 언어 모델은 테스트 혼란도를 현저히 줄이고, 이전 모델에 비해 최대 25.4% 개선을 달성합니다.
7개의 벤치마크에서 자가 회귀 모델을 초월하는 제로샷 일반화에서 최첨단 결과를 달성합니다.
확산 언어 모델에서 토큰 마스킹의 한계를 해결하는 새로운 2단계 구조를 제안합니다.
앵커링 기법은 확산 모델뿐만 아니라 자가 회귀 모델에서의 추론 과제를 향상시킵니다.

Abstract

확산 언어 모델(DLM)은 병렬 생성 및 양방향 문맥을 약속하지만, 확률 모델링 및 생성된 텍스트 품질 모두에서 자가 회귀(AR) 모델보다 성능이 떨어집니다. 우리는 이 성능 격차가 중요한 토큰(예: 문장을 고정하는 키워드나 저빈도 단어)이 전방 과정에서 일찍 마스킹될 때 발생한다는 것을 확인했습니다. 이를 해결하기 위해, 우리는 앵커 네트워크를 통해 중요한 토큰의 분포를 먼저 예측하고, 이후 앵커된 예측에 조건화된 누락된 토큰의 가능성을 예측하는 새로운 2단계 구조인 앵커링된 확산 언어 모델(ADLM)을 소개합니다. ADLM은 LM1B와 OpenWebText에서 테스트 혼란도를 상당히 개선하여, 이전 DLM 모델보다 최대 25.4%의 향상을 이루었으며, 강력한 AR 기준선과의 격차를 좁힙니다. 또한, 7개의 벤치마크에서 제로샷 일반화에서 최첨단 성능을 달성하고, MAUVE 점수에서 AR 모델을 초월하여 DLM이 AR 모델보다 더 인간 같은 텍스트를 생성한 최초의 사례가 됩니다. 이론적으로 우리는 앵커링된 부정적 증거 하한(ANELBO) 목표를 유도하고, 앵커링이 샘플 복잡도 및 가능성 모델링을 개선한다는 것을 보여줍니다. 확산을 넘어, 앵커링은 AR 모델의 성능을 향상시키고 수학 및 논리 과제에서의 추론 능력을 강화하여 기존의 사고 방식 접근법보다 우수합니다.

Read Full Paperexternally

AI에게 질문

Bookmark

View Full Paper