Chain of Thought (CoT) 추론은 언어 모델의 성능을 향상시키지만 종종 단순한 문제에서 비효율적인 "과잉 사고"를 유발합니다. 기존 접근법이 추론의 길이를 직접 벌점하는 방식은 문제 복잡도의 변화를 반영하지 못함을 확인했습니다. 저희 접근법은 이론적 가정을 기반으로 길이와 품질 비교를 통해 보상을 구성하여 해결의 정확성과 간결성을 함께 향상시킵니다. 더 나아가, 정답이 없는 퍼지 작업에서도 본 방법의 유용함을 입증했습니다. 여러 추론 벤치마크 실험에서 저희 방법은 정확도를 유지하면서 훨씬 더 간결한 설명을 생성하며 모델이 "필요할 때 사고하도록" 효과적으로 학습시킴을 보여줍니다.
Yang 등(Fri,)이 이 질문을 연구했습니다.