What type of study is this?

This is a Experimental Study study.

October 20, 2025Open Access

Renforcement en milieu d'entraînement

Key Points

Le renforcement en milieu d'entraînement améliore la performance du modèle en s'attaquant aux méthodes d'entraînement inefficaces.
RMT montre des améliorations allant jusqu'à +64.91 % avec seulement 21 % de la longueur de raisonnement requise pour une modélisation linguistique efficace.
Le cadre utilise un budget de tokens dynamique et un échantillonnage adaptatif basé sur un curriculum pour optimiser l'apprentissage.
Les points de contrôle réussis en milieu d'entraînement améliorent les résultats de l'entraînement postérieur, entraînant jusqu'à +18.76 % d'amélioration dans les tâches mathématiques.

Abstract

Le développement de modèles de langage de pointe est généralement compris comme un processus en deux étapes impliquant l'entraînement préalable et l'entraînement postérieur. Nous soulignons la nécessité d'une étape intermédiaire supplémentaire appelée renforcement en milieu d'entraînement, avec un potentiel de gains de performance importants. Dans cet article, nous définissons formellement le problème et identifions trois défis clés : (1) un entraînement inefficace dû à un nombre excessif d'étapes de raisonnement, (2) un mépris de la distribution d'entropie des tokens déséquilibrée, et (3) une sous-utilisation de l'information des tokens. Pour relever ces défis, nous proposons RMT, un cadre pour un renforcement en milieu d'entraînement efficace, adaptable et unifié avec divers composants innovants. En particulier, nous introduisons d'abord un mécanisme de budget de tokens dynamique qui contraint les étapes de raisonnement inutiles et atténue la sur-analyse du modèle. Ensuite, nous concevons une méthode d'échantillonnage adaptatif basée sur un curriculum qui favorise une trajectoire d'apprentissage progressive des tokens faciles aux tokens difficiles. Enfin, nous présentons une stratégie de formation duale qui combine apprentissage par renforcement avec prédiction du prochain token, garantissant un apprentissage ciblé sur les tokens clés et une pleine exploitation de toutes les informations des tokens. Des expériences approfondies montrent la supériorité de RMT par rapport aux méthodes de pointe, atteignant jusqu'à +64.91 % d'amélioration de performance avec seulement 21 % de la longueur de raisonnement requise en modélisation linguistique. Nous montrons également que les points de contrôle obtenus après le renforcement en milieu d'entraînement peuvent bénéficier à l'entraînement postérieur, entraînant jusqu'à +18.76 % d'amélioration dans le domaine mathématique.

Renforcement en milieu d'entraînement

Key Points

Abstract

Cite This Study

Also Consider

Also Consider