Les grands modèles de raisonnement (LRMs) ont démontré des capacités remarquables grâce à une montée en charge lors de l'inférence, mais cette progression a également introduit une redondance considérable et une inefficacité dans leurs processus de raisonnement, entraînant un gaspillage important de ressources informatiques. Des travaux antérieurs ont tenté d'atténuer ce problème en pénalisant la longueur globale des échantillons générés durant l'apprentissage par renforcement (RL), dans le but d'encourager des chaînes de pensée plus concises. Cependant, nous observons que cette pénalité de longueur globale conduit souvent à une compression excessive des étapes de raisonnement critiques tout en conservant des détails inutiles dans les étapes plus simples, ce qui engendre un compromis sous-optimal entre précision et efficacité. Pour remédier à ce problème, nous proposons SmartThinker, un cadre d'apprentissage en deux étapes conçu pour permettre un contrôle fin de la longueur des chaînes de raisonnement basé sur l'importance de chaque étape individuelle. Dans la première étape, SmartThinker adapte un modèle de raisonnement à un mode de raisonnement en forme courte via un échantillonnage par rejet combiné à un ajustement supervisé fin (SFT). Dans la deuxième étape, SmartThinker applique l'optimisation de politique de contrôle de longueur au niveau de l'étape (SCPO) pour affiner la distribution de sortie du modèle, ce qui augmente la proportion de longueur allouée aux étapes critiques tout en réduisant la redondance dans les étapes moins importantes. SCPO comprend quatre composants principaux : un estimateur d'importance en ligne, une fonction de récompense de contrôle de longueur au niveau de l'étape, une estimation d'avantage généralisée au niveau de l'étape (S-GAE) et une stratégie de clipage adaptative à la difficulté. Agissant en synergie, ces composants permettent à SCPO d'implémenter un contrôle différencié de la longueur à travers les étapes de raisonnement. Les résultats empiriques obtenus sur plusieurs benchmarks de raisonnement et divers modèles de base démontrent que SmartThinker réduit significativement le raisonnement redondant tout en atteignant des performances comparables voire supérieures aux méthodes existantes.
He et al. (Sun,) ont étudié cette question.