Key points are not available for this paper at this time.
Les grands modèles de langage (LLMs) ont démontré une excellente maîtrise du langage humain, mais rencontrent encore des difficultés dans les applications concrètes nécessitant une résolution de problèmes mathématiques. Bien que de nombreuses stratégies et ensembles de données aient été développés pour améliorer les compétences mathématiques des LLMs, il reste un défi de maintenir et d'améliorer simultanément à la fois les capacités linguistiques et mathématiques dans les systèmes LLM déployés. Dans ce travail, nous adaptons la chaîne d'autocritique, qui répond au défi au stade d'apprentissage par retour d'information dans l'alignement des LLMs. Nous entraînons d'abord un modèle Math-Critique général à partir du LLM lui-même pour fournir des signaux de rétroaction. Ensuite, nous employons successivement un affinage par rejet et une optimisation directe des préférences sur les propres générations du LLM pour la collecte de données. Basés sur ChatGLM3-32B, nous menons une série d'expériences sur des ensembles de données académiques ainsi que sur notre nouvel ensemble de données difficile, MathUserEval. Les résultats montrent que notre chaîne améliore significativement la résolution de problèmes mathématiques du LLM tout en améliorant sa capacité linguistique, surpassant des LLMs pouvant être deux fois plus grands. Des techniques associées ont été déployées sur ChatGLMhttps: //chatglm. cn, un LLM en service en ligne. L'ensemble de données d'évaluation associé et les scripts sont disponibles sur https: //github. com/THUDM/ChatGLM-Math.
Xu et al. (Mer,) ont étudié cette question.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: