Key points are not available for this paper at this time.
사고 과정 증류는 대형 언어 모델(LLMs)에서 소형 학생 모델로 추론 능력을 전이하기 위한 강력한 기법입니다. 이전의 방법들은 일반적으로 학생이 LLMs가 생성한 단계별 근거를 모방하도록 요구하며, 다음과 같은 문제에 직면합니다: (i) 근거 내 토큰의 중요성이 달라 동일하게 처리할 경우 키포인트 토큰을 정확하게 모방하지 못해 추론 오류가 발생할 수 있습니다. (ii) 이들은 일반적으로 근거의 모든 단계를 일관되게 예측하여 지식을 증류하는데, 이는 단계 생성의 학습 순서를 구분하는 데 부족합니다. 이는 인간의 인지 진행 방식과는 다르며, 쉬운 작업부터 시작하여 어려운 작업으로 발전하는 과정에서 비효율적인 결과를 초래합니다. 이를 해결하기 위해, 우리는 KPOD라는 통합 프레임워크를 제안합니다. 구체적으로, 우리는 증류 중 학생이 키포인트 토큰을 정확하게 모방하도록 장려하기 위해 마스크 학습을 활용한 토큰 가중치 모듈을 제안합니다. 또한, 학생이 최종 추론 단계를 생성하도록 훈련하는 것부터 시작하여 전체 근거를 포함하도록 점진적으로 확장하는 내부 근거 전개 증류 전략을 개발합니다. 이를 달성하기 위해, 단계 추론 난이도를 평가하기 위한 가중치가 부여된 토큰 생성 손실을 제안하고, 단계 난이도와 질문 다양성을 고려하여 점진적 증류를 계획하는 가치 함수를 설계합니다. 네 개의 추론 벤치마크에 대한 광범위한 실험은 우리의 KPOD가 이전 방법들보다 크게 개선되었음을 보여줍니다.
Feng et al. (Sat,)은 이 질문에 대해 연구했습니다.