कार्यान्वयन के लिए बड़े भाषा मॉडल (LLMs) के पोस्ट-प्रशिक्षण में, वर्तमान प्रथा LLMs को दो स्वतंत्र चरणों में प्रशिक्षित करती है: सुपरवाइज्ड फाइन-ट्यूनिंग (SFT) और प्रमाणित इनामों के साथ सुदृढीकरण लर्निंग (RLVR, जिसे नीचे ``RL'' के रूप में संक्षिप्त किया गया है)। इस कार्य में, हम चुनौती देते हैं कि क्या उच्च SFT स्कोर RL के बाद बेहतर प्रदर्शन में परिवर्तित होते हैं। हम कई विस्तृत प्रतिक्रम उदाहरण प्रदान करते हैं जहाँ यह सत्य नहीं है। हम पाते हैं कि उच्च SFT स्कोर सरल या अधिक समरूप डेटा की ओर पक्षपाती हो सकते हैं और अगले RL लाभों या बढ़े हुए पोस्ट-प्रशिक्षण प्रभावशीलता का पूर्वानुमान करने में विश्वसनीय नहीं होते। कुछ मामलों में, SFT प्रदर्शन में सुधारित मॉडलों पर RL प्रशिक्षण RL के आधार मॉडल के बिना SFT की तुलना में काफी worse परिणाम उत्पन्न कर सकता है। हम वैकल्पिक मैट्रिक्स का अध्ययन करते हैं और धारण किए गए तर्क उदाहरणों पर सामान्यीकरण हानि और Pass@large k प्रदर्शन की पहचान करते हैं ताकि RL परिणाम के लिए मजबूत प्रॉक्सी प्रदान की जा सके। हमने SFT और RLVR के माध्यम से GRPO के साथ 12B-पैरामीटर तक के सैकड़ों मॉडलों को प्रशिक्षित किया और 7 गणित मानकों पर 256 पुनरावृत्तियों के साथ व्यापक मूल्यांकन किए, खर्च किए गए >1M GPU घंटे। प्रयोगों में Llama3, Mistral-Nemo, Qwen3 और कई अत्याधुनिक SFT/RL डेटा सेटों से मॉडल शामिल हैं। पूर्व-RL प्रदर्शन से सीधे भविष्यवाणी की तुलना में, सामान्यीकरण हानि और Pass@large k पर आधारित भविष्यवाणी काफी अधिक सटीकता हासिल करती है, R² गुणांक और स्पीयरमैन के रैंक सहसंबंध गुणांक को 0.5 (2x) तक सुधारती है। यह व्यापक उपयोग के मामलों के लिए मजबूत उपयोगिता प्रदान करता है। उदाहरण के लिए, अधिकांश प्रयोगों में, हम पाते हैं कि एक एपोक के लिए अद्वितीय उदाहरणों पर SFT प्रशिक्षण आधे उदाहरणों के लिए दो एपोक के प्रशिक्षण की तुलना में खराब प्रदर्शन करता है, चाहे SFT के बाद हो या SFT-फिर-RL; समान SFT बजट के साथ, केवल छोटे उदाहरणों पर प्रशिक्षण बेहतर SFT प्रदर्शन की ओर ले जा सकता है, हालाँकि, यह अक्सर RL के बाद बुरे परिणामों की ओर ले जाता है जबकि विभिन्न लंबाई के उदाहरणों पर प्रशिक्षण करने की तुलना में। मूल्यांकन उपकरण ओपन-सोर्स किया जाएगा।
कांग एट अल. (गुरु,) ने इस प्रश्न का अध्ययन किया।
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: