Key points are not available for this paper at this time.
대규모 텍스트 코퍼스에 대한 다음 토큰 예측(NTP)은 대규모 언어 모델을 훈련하는 데 있어 주된 패러다임이 되었습니다. 그러나 NTP가 언어 패턴을 생성된 모델 표현의 기하학적 속성에 어떻게 영향을 미치는지는 여전히 불확실합니다. 우리는 대규모 언어 모델의 훈련을 희소한 확률적 레이블 벡터에 대한 소프트 라벨 분류로 프레이밍하고, 여기서 문맥 임베딩의 무제한 생성을 가능하게 하는 분석적 근사값을 결합합니다. 이 접근법은 NTP 훈련을 순위 제약이 있는 핵 노름 정규화 최적화와 연결하며, 단어와 문맥 임베딩의 기하학을 분석할 수 있는 프레임워크를 제공합니다. 대규모 임베딩 공간에서 NTP는 암묵적으로 희소하고 낮은 순위 구조를 가진 로짓 학습을 선호함을 발견했습니다. 희소한 구성 요소는 문맥-단어 쌍의 동시 발생 빈도를 포착하는 반면, 훈련이 진행됨에 따라 우세해지는 직교 낮은 순위 구성 요소는 오직 동시 발생 행렬의 희소성 패턴에만 의존합니다. 결과적으로 적절한 부분 공간에 투영될 때, 동일한 다음 토큰 집합에 의해 이어지는 문맥의 표현이 붕괴되며, 우리는 이를 부분 공간 붕괴(subspace-collapse)라고 명명합니다. 우리는 합성 및 소규모 실제 언어 데이터 세트에서 우리의 발견을 검증합니다. 마지막으로, NTP가 언어 패턴 및 규칙 학습에 미치는 영향에 대한 이해를 심화시키기 위한 가능한 연구 방향을 제시합니다.
Zhao 외 (화요일,) 이 질문을 연구했습니다.