Key points are not available for this paper at this time.
우리는 공공 인간 생성 텍스트 데이터의 가용성으로 인해 제기되는 LLM 확장에 대한 잠재적 제약을 조사합니다. 현재의 추세를 바탕으로 훈련 데이터에 대한 증가하는 수요를 예측하고 공공 인간 텍스트 데이터의 총 재고를 추정합니다. 우리의 연구 결과에 따르면, 현재 LLM 개발 추세가 지속된다면 모델은 2026년과 2032년 사이에 사용 가능한 공공 인간 텍스트 데이터의 재고와 대략 동일한 크기의 데이터셋에서 훈련될 것이며, 모델이 과훈련될 경우 약간 더 이른 시점이 될 수 있습니다. 우리는 인간 생성 텍스트 데이터셋을 더 이상 확장할 수 없을 때 언어 모델링의 진행이 어떻게 계속될 수 있는지를 탐구합니다. 우리는 합성 데이터 생성, 데이터가 풍부한 도메인에서의 전이 학습, 데이터 효율성 향상이 추가적인 발전을 지원할 수 있음을 주장합니다.
Villalobos et al. (수요일) 이 질문을 연구했습니다.