链式思维(CoT)推理提升了语言模型的性能,但常常导致对简单问题的低效“过度思考”。我们发现,现有直接惩罚推理长度的方法未能考虑问题复杂性的变化。我们的方法通过长度和质量比较构建奖励,基于理论假设共同提升解决方案的正确性与简洁性。此外,我们进一步证明了我们的方法在地面真相不可用的模糊任务中的有效性。多个推理基准的实验表明,我们的方法在生成更简洁的解释的同时保持了准确性,有效地教会模型“在需要时思考”。
Yang 等人(周五)研究了这个问题。