확산 언어 모델(DLM)은 병렬 생성 및 양방향 문맥을 약속하지만, 확률 모델링 및 생성된 텍스트 품질 모두에서 자가 회귀(AR) 모델보다 성능이 떨어집니다. 우리는 이 성능 격차가 중요한 토큰(예: 문장을 고정하는 키워드나 저빈도 단어)이 전방 과정에서 일찍 마스킹될 때 발생한다는 것을 확인했습니다. 이를 해결하기 위해, 우리는 앵커 네트워크를 통해 중요한 토큰의 분포를 먼저 예측하고, 이후 앵커된 예측에 조건화된 누락된 토큰의 가능성을 예측하는 새로운 2단계 구조인 앵커링된 확산 언어 모델(ADLM)을 소개합니다. ADLM은 LM1B와 OpenWebText에서 테스트 혼란도를 상당히 개선하여, 이전 DLM 모델보다 최대 25.4%의 향상을 이루었으며, 강력한 AR 기준선과의 격차를 좁힙니다. 또한, 7개의 벤치마크에서 제로샷 일반화에서 최첨단 성능을 달성하고, MAUVE 점수에서 AR 모델을 초월하여 DLM이 AR 모델보다 더 인간 같은 텍스트를 생성한 최초의 사례가 됩니다. 이론적으로 우리는 앵커링된 부정적 증거 하한(ANELBO) 목표를 유도하고, 앵커링이 샘플 복잡도 및 가능성 모델링을 개선한다는 것을 보여줍니다. 확산을 넘어, 앵커링은 AR 모델의 성능을 향상시키고 수학 및 논리 과제에서의 추론 능력을 강화하여 기존의 사고 방식 접근법보다 우수합니다.
Rout et al. (금요일)은 이 질문을 연구했습니다.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: