November 8, 2025Open Access

需要时思考：自适应链式思维学习

Key Points

自适应学习提高了语言模型的效率，同时改善了简洁性。
在推理基准上的评估表明减少响应长度的有效性。
该方法基于表现利用奖励，而不是惩罚更长的推理。
在缺乏明确地面真相的场景中支持更准确的解题，突出其重要性。

Abstract

链式思维（CoT）推理提升了语言模型的性能，但常常导致对简单问题的低效“过度思考”。我们发现，现有直接惩罚推理长度的方法未能考虑问题复杂性的变化。我们的方法通过长度和质量比较构建奖励，基于理论假设共同提升解决方案的正确性与简洁性。此外，我们进一步证明了我们的方法在地面真相不可用的模糊任务中的有效性。多个推理基准的实验表明，我们的方法在生成更简洁的解释的同时保持了准确性，有效地教会模型“在需要时思考”。

Read Full Paperexternally

Bookmark

View Full Paper

Cite This Study

Yang 等人（周五）研究了这个问题。

synapsesocial.com/papers/690e8b6ca5b062d7a4e734ec https://doi.org/https://doi.org/10.48550/arxiv.2504.03234

Bookmark

View Full Paper