What type of study is this?

This is a Quantitative Study study.

October 19, 2025Open Access

SmartThinker : Apprendre à compresser et préserver le raisonnement par un contrôle de la longueur au niveau de chaque étape

Key Points

SmartThinker réduit le raisonnement redondant tout en maintenant de hautes performances sur divers benchmarks.
Le cadre utilise une approche en deux étapes, intégrant l'échantillonnage par rejet et l'ajustement supervisé fin pour l'adaptation initiale.
L'optimisation de politique de contrôle de longueur au niveau de l'étape adapte l'allocation de longueur en fonction de la criticité des étapes de raisonnement.
Les résultats empiriques montrent que SmartThinker surpasse les méthodes existantes, assurant un raisonnement efficace tout en minimisant le gaspillage computationnel.

Abstract

Les grands modèles de raisonnement (LRMs) ont démontré des capacités remarquables grâce à une montée en charge lors de l'inférence, mais cette progression a également introduit une redondance considérable et une inefficacité dans leurs processus de raisonnement, entraînant un gaspillage important de ressources informatiques. Des travaux antérieurs ont tenté d'atténuer ce problème en pénalisant la longueur globale des échantillons générés durant l'apprentissage par renforcement (RL), dans le but d'encourager des chaînes de pensée plus concises. Cependant, nous observons que cette pénalité de longueur globale conduit souvent à une compression excessive des étapes de raisonnement critiques tout en conservant des détails inutiles dans les étapes plus simples, ce qui engendre un compromis sous-optimal entre précision et efficacité. Pour remédier à ce problème, nous proposons SmartThinker, un cadre d'apprentissage en deux étapes conçu pour permettre un contrôle fin de la longueur des chaînes de raisonnement basé sur l'importance de chaque étape individuelle. Dans la première étape, SmartThinker adapte un modèle de raisonnement à un mode de raisonnement en forme courte via un échantillonnage par rejet combiné à un ajustement supervisé fin (SFT). Dans la deuxième étape, SmartThinker applique l'optimisation de politique de contrôle de longueur au niveau de l'étape (SCPO) pour affiner la distribution de sortie du modèle, ce qui augmente la proportion de longueur allouée aux étapes critiques tout en réduisant la redondance dans les étapes moins importantes. SCPO comprend quatre composants principaux : un estimateur d'importance en ligne, une fonction de récompense de contrôle de longueur au niveau de l'étape, une estimation d'avantage généralisée au niveau de l'étape (S-GAE) et une stratégie de clipage adaptative à la difficulté. Agissant en synergie, ces composants permettent à SCPO d'implémenter un contrôle différencié de la longueur à travers les étapes de raisonnement. Les résultats empiriques obtenus sur plusieurs benchmarks de raisonnement et divers modèles de base démontrent que SmartThinker réduit significativement le raisonnement redondant tout en atteignant des performances comparables voire supérieures aux méthodes existantes.

Read Full Paperexternally

Demander à l'IA

Bookmark

View Full Paper