November 8, 2025Open Access

필요할 때 사고하기: 자기 적응형 생각 연쇄 학습

Key Points

자기 적응형 학습은 향상된 간결성과 함께 언어 모델의 효율성을 높입니다.
여러 추론 벤치마크 전반의 평가에서 응답 길이 감소 효과가 입증되었습니다.
이 접근법은 더 긴 추론을 벌점하는 대신 성과에 기반한 보상을 활용합니다.
명확한 정답이 없는 시나리오에서 더 정확한 문제 해결을 지원하여 그 중요성을 강조합니다.

Abstract

Chain of Thought (CoT) 추론은 언어 모델의 성능을 향상시키지만 종종 단순한 문제에서 비효율적인 "과잉 사고"를 유발합니다. 기존 접근법이 추론의 길이를 직접 벌점하는 방식은 문제 복잡도의 변화를 반영하지 못함을 확인했습니다. 저희 접근법은 이론적 가정을 기반으로 길이와 품질 비교를 통해 보상을 구성하여 해결의 정확성과 간결성을 함께 향상시킵니다. 더 나아가, 정답이 없는 퍼지 작업에서도 본 방법의 유용함을 입증했습니다. 여러 추론 벤치마크 실험에서 저희 방법은 정확도를 유지하면서 훨씬 더 간결한 설명을 생성하며 모델이 "필요할 때 사고하도록" 효과적으로 학습시킴을 보여줍니다.

Read Full Paperexternally

Bookmark

View Full Paper

Cite This Study

Yang 등(Fri,)이 이 질문을 연구했습니다.

synapsesocial.com/papers/690e8b6ca5b062d7a4e734ec https://doi.org/https://doi.org/10.48550/arxiv.2504.03234

Bookmark

View Full Paper