Key points are not available for this paper at this time.
사람들은 글을 쓰거나 말할 때 가끔 생각하기 위해 멈춥니다. 추론에 초점을 맞춘 작업들은 종종 추론을 질문에 대한 답변 또는 능동적인 작업을 수행하는 방법으로 구성했지만, 추론은 거의 모든 작성된 텍스트에 암시되어 있습니다. 예를 들어, 이는 증명의 줄 사이에 명시되지 않은 단계나 대화의 기저에 있는 마음 이론에 적용됩니다. Self-Taught Reasoner (STaR, Zelikman et al. 2022)에서는 유용한 사고가 질문-답변에서 몇 가지 예제로부터 합리적 근거를 추론하고, 올바른 답변으로 이끄는 것에서 학습합니다. 이는 매우 제한된 환경이며 -- 이상적으로는 언어 모델이 임의의 텍스트에서 명시되지 않은 근거를 추론하는 법을 배울 수 있습니다. 우리는 고요한 STaR(Quiet-STaR)을 제안합니다. 이는 LMs가 각 토큰에서 향후 텍스트를 설명하기 위한 근거를 생성하도록 학습하여 예측을 개선하는 STaR의 일반화입니다. 우리는 1) 연속성을 생성하는 컴퓨팅 비용, 2) LM이 내부 생각을 생성하거나 사용하는 방법을 처음에 알지 못한다는 사실, 3) 개별 다음 토큰을 넘어 예측해야 하는 필요성 등 주요 도전과제를 다룹니다. 이를 해결하기 위해, 우리는 사상의 시작과 끝을 나타내는 학습 가능한 토큰을 사용한 토큰 단위 병렬 샘플링 알고리즘과 확장된 교사 강제 기법을 제안합니다. 격려스럽게도, 생성된 근거는 예측하기 어려운 토큰에 불균형적으로 도움이 되며 LM의 어려운 질문에 대한 직접적인 답변 능력을 개선합니다. 특히, Quiet-STaR로 인터넷 텍스트 코퍼스에 대한 LM의 지속적인 사전 훈련 후, 우리는 GSM8K에서 제로샷 개선(5.9%에서 10.9%)과 CommonsenseQA에서(36.3%에서 47.2%)를 발견하고 자연 텍스트에서 어려운 토큰의 당혹도를 개선하는 것을 관찰합니다. 중요한 것은 이러한 개선이 이러한 작업에 대한 파인튜닝 없이 이루어진다는 것입니다. Quiet-STaR는 LM이 보다 일반적이고 확장 가능한 방식으로 추론하는 법을 배울 수 있는 방향으로 나아가는 한 걸음을 나타냅니다.
Zelikman et al. (Thu, )는 이 질문을 연구했습니다.