Le développement de modèles de langage de pointe est généralement compris comme un processus en deux étapes impliquant l'entraînement préalable et l'entraînement postérieur. Nous soulignons la nécessité d'une étape intermédiaire supplémentaire appelée renforcement en milieu d'entraînement, avec un potentiel de gains de performance importants. Dans cet article, nous définissons formellement le problème et identifions trois défis clés : (1) un entraînement inefficace dû à un nombre excessif d'étapes de raisonnement, (2) un mépris de la distribution d'entropie des tokens déséquilibrée, et (3) une sous-utilisation de l'information des tokens. Pour relever ces défis, nous proposons RMT, un cadre pour un renforcement en milieu d'entraînement efficace, adaptable et unifié avec divers composants innovants. En particulier, nous introduisons d'abord un mécanisme de budget de tokens dynamique qui contraint les étapes de raisonnement inutiles et atténue la sur-analyse du modèle. Ensuite, nous concevons une méthode d'échantillonnage adaptatif basée sur un curriculum qui favorise une trajectoire d'apprentissage progressive des tokens faciles aux tokens difficiles. Enfin, nous présentons une stratégie de formation duale qui combine apprentissage par renforcement avec prédiction du prochain token, garantissant un apprentissage ciblé sur les tokens clés et une pleine exploitation de toutes les informations des tokens. Des expériences approfondies montrent la supériorité de RMT par rapport aux méthodes de pointe, atteignant jusqu'à +64.91 % d'amélioration de performance avec seulement 21 % de la longueur de raisonnement requise en modélisation linguistique. Nous montrons également que les points de contrôle obtenus après le renforcement en milieu d'entraînement peuvent bénéficier à l'entraînement postérieur, entraînant jusqu'à +18.76 % d'amélioration dans le domaine mathématique.
Tian et al. (Mon,) ont étudié cette question.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: