May 30, 2024Open Access

모방을 넘어서: 추론 증류에서 이중 사고 체인으로부터 핵심 추론 단계 학습하기

Key Points

Key points are not available for this paper at this time.

Abstract

대규모 언어 모델(LLM)이 확장되면서 강력한 사고 체인(CoT) 추론 능력을 갖추게 되며, 실제 자원 제한으로 인해 이러한 능력을 더 간결한 소규모 언어 모델(SLM)로 증류하려는 노력이 이루어지고 있습니다. 우리는 CoT가 주로 간단한 추론 형태로 구성되어 있으며, 결론에 진정으로 영향을 미치는 핵심 추론 단계는 아주 적은 비율(4.7%)이라는 것을 발견하였습니다. 그러나 이전의 증류 방법은 일반적으로 교사 LLM이 생성한 올바른 CoT 데이터에서만 학생 SLM을 감독하여 미세 조정하는 방식을 포함하며, 이로 인해 학생들은 핵심 추론 단계를 학습하는 데 어려움을 겪고, 대신 교사의 추론 형태를 모방하고 이 단계에서 오류나 누락을 발생시킵니다. 이러한 문제를 해결하기 위해, 올바른 해답에 따라 실수를 분석하는 것이 성공이나 실패로 이어지는 중요한 단계를 드러내는 인간 학습에 비유하여, 단순 미세 조정보다 SLM이 핵심 추론 단계를 학습하도록 추가로 돕는 새로운 방법인 실수 기반 핵심 추론 단계 증류(mistakE-Driven key reasonIng step distillaTion, EDIT)를 제안합니다. 첫째, CoT에서 이러한 중요한 단계를 노출하기 위해 비슷한 추론 경로를 가진 이중 CoT 데이터를 생성하기 위한 특정 프롬프트를 설계합니다. 그런 다음, 이중 CoT 데이터에 최소 편집 거리 알고리즘을 적용하여 이러한 핵심 단계를 찾고 이들 단계의 가능성을 최적화합니다. 광범위한 실험을 통해 EDIT의 효과성을 도메인 내 및 도메인 외 벤치마크 추론 데이터 세트에서 검증합니다. 추가 분석을 통해 EDIT가 더 많은 올바른 핵심 추론 단계를 가진 고품질 CoT를 생성할 수 있음을 보여줍니다. 특히, 우리는 또한 서로 다른 실수 패턴이 성능에 미치는 영향을 탐색하며, EDIT가 이중 CoT에서 지식이나 수학 계산 오류보다 논리적 오류로부터 더 많은 혜택을 받는다는 것을 발견합니다. 코드는 https://github.com/C-W-D/EDIT에서 확인할 수 있습니다.

모방을 넘어서: 추론 증류에서 이중 사고 체인으로부터 핵심 추론 단계 학습하기

Key Points

Abstract

Cite This Study

Also Consider

Also Consider