What type of study is this?

This is a Experimental Study study.

October 5, 2025Open Access

SFT-RL पोस्ट-प्रशिक्षण में जटिलताएँ: जब उच्च SFT स्कोर भ्रामक होते हैं और इसके बजाय क्या उपयोग किया जाना चाहिए

Key Points

उच्च SFT स्कोर सुदृढीकरण लर्निंग परिणामों के लिए भविष्यवाणियों को भ्रामक कर सकते हैं, समग्र प्रदर्शन को प्रभावित करते हैं।
7 गणित मानकों पर व्यापक मूल्यांकन यह दर्शाते हैं कि सामान्यीकरण हानि और Pass@large k SFT की तुलना में बेहतर पूर्वानुमान मैट्रिक्स के रूप में कार्य करते हैं।
छोटे उदाहरणों पर प्रशिक्षण बेहतर SFT प्रदर्शन उत्पन्न कर सकता है, फिर भी सुदृढीकरण लर्निंग के बाद खराब परिणाम उत्पन्न करता है।
यह शोध सैकड़ों मॉडलों का प्रशिक्षण शामिल करता है, कठोर मूल्यांकन के माध्यम से SFT और RL प्रदर्शन की सीमाओं को आगे बढ़ाता है.

Abstract

कार्यान्वयन के लिए बड़े भाषा मॉडल (LLMs) के पोस्ट-प्रशिक्षण में, वर्तमान प्रथा LLMs को दो स्वतंत्र चरणों में प्रशिक्षित करती है: सुपरवाइज्ड फाइन-ट्यूनिंग (SFT) और प्रमाणित इनामों के साथ सुदृढीकरण लर्निंग (RLVR, जिसे नीचे ``RL'' के रूप में संक्षिप्त किया गया है)। इस कार्य में, हम चुनौती देते हैं कि क्या उच्च SFT स्कोर RL के बाद बेहतर प्रदर्शन में परिवर्तित होते हैं। हम कई विस्तृत प्रतिक्रम उदाहरण प्रदान करते हैं जहाँ यह सत्य नहीं है। हम पाते हैं कि उच्च SFT स्कोर सरल या अधिक समरूप डेटा की ओर पक्षपाती हो सकते हैं और अगले RL लाभों या बढ़े हुए पोस्ट-प्रशिक्षण प्रभावशीलता का पूर्वानुमान करने में विश्वसनीय नहीं होते। कुछ मामलों में, SFT प्रदर्शन में सुधारित मॉडलों पर RL प्रशिक्षण RL के आधार मॉडल के बिना SFT की तुलना में काफी worse परिणाम उत्पन्न कर सकता है। हम वैकल्पिक मैट्रिक्स का अध्ययन करते हैं और धारण किए गए तर्क उदाहरणों पर सामान्यीकरण हानि और Pass@large k प्रदर्शन की पहचान करते हैं ताकि RL परिणाम के लिए मजबूत प्रॉक्सी प्रदान की जा सके। हमने SFT और RLVR के माध्यम से GRPO के साथ 12B-पैरामीटर तक के सैकड़ों मॉडलों को प्रशिक्षित किया और 7 गणित मानकों पर 256 पुनरावृत्तियों के साथ व्यापक मूल्यांकन किए, खर्च किए गए >1M GPU घंटे। प्रयोगों में Llama3, Mistral-Nemo, Qwen3 और कई अत्याधुनिक SFT/RL डेटा सेटों से मॉडल शामिल हैं। पूर्व-RL प्रदर्शन से सीधे भविष्यवाणी की तुलना में, सामान्यीकरण हानि और Pass@large k पर आधारित भविष्यवाणी काफी अधिक सटीकता हासिल करती है, R² गुणांक और स्पीयरमैन के रैंक सहसंबंध गुणांक को 0.5 (2x) तक सुधारती है। यह व्यापक उपयोग के मामलों के लिए मजबूत उपयोगिता प्रदान करता है। उदाहरण के लिए, अधिकांश प्रयोगों में, हम पाते हैं कि एक एपोक के लिए अद्वितीय उदाहरणों पर SFT प्रशिक्षण आधे उदाहरणों के लिए दो एपोक के प्रशिक्षण की तुलना में खराब प्रदर्शन करता है, चाहे SFT के बाद हो या SFT-फिर-RL; समान SFT बजट के साथ, केवल छोटे उदाहरणों पर प्रशिक्षण बेहतर SFT प्रदर्शन की ओर ले जा सकता है, हालाँकि, यह अक्सर RL के बाद बुरे परिणामों की ओर ले जाता है जबकि विभिन्न लंबाई के उदाहरणों पर प्रशिक्षण करने की तुलना में। मूल्यांकन उपकरण ओपन-सोर्स किया जाएगा।

SFT-RL पोस्ट-प्रशिक्षण में जटिलताएँ: जब उच्च SFT स्कोर भ्रामक होते हैं और इसके बजाय क्या उपयोग किया जाना चाहिए

Key Points

Abstract

Cite This Study

Also Consider

Also Consider