What type of study is this?

This is a Experimental Study study.

October 16, 2025Open Access

वितरण में सफलता के परे: भाषा मॉडल सामान्यीकरण के लिए CoT सामान्यता के स्केलिंग वक्र

Key Points

QA डेटा के साथ प्रशिक्षित भाषा मॉडलों में वितरण से बाहर प्रदर्शन में महत्वपूर्ण गिरावट दिखाई देती है।
अधिक सामान्य Chain-of-Thought डेटा मॉडलों में सामान्यीकरण प्रदर्शन को महत्वपूर्ण रूप से बढ़ाता है।
CoT तर्क महत्वपूर्ण रूप से कम डेटा के साथ QA के साथ तुलनीय प्रदर्शन प्राप्त करता है, नमूना दक्षता में सुधार करता है।
ट्रांसफार्मर में स्थानिक एम्बेडिंग उपकार्य पुनरावृत्तियों को उजागर करके सामान्यीकरण को और बढ़ावा देती हैं।

Abstract

वितरण परिवर्तन के अंतर्गत नवीन यौगिक कार्यों के लिए सामान्यीकरण ट्रांसफार्मर-आधारित भाषा मॉडल (एलएम) के तैनाती के लिए महत्वपूर्ण है। यह कार्य ओओडी सामान्यीकरण बढ़ाने के एक साधन के रूप में Chain-of-Thought (CoT) तर्क की जांच करता है। कई यौगिक कार्यों में नियंत्रित प्रयोगों के माध्यम से, हम तीन प्रमुख अंतर्दृष्टियाँ प्रकट करते हैं: (1) जबकि QA-प्रशिक्षित मॉडल वितरण में लगभग पूर्ण सटीकता प्राप्त करते हैं, उनका OOD प्रदर्शन 10000k+ प्रशिक्षण उदाहरणों के साथ भी विनाशकारी रूप से बिगड़ जाता है; (2) CoT डेटा की सामान्यता सामान्यीकरण प्रदर्शन के साथ मजबूत रूप से सहसंबंधित होती है; अधिक सामान्य CoT डेटा बेहतर सामान्यीकरण की ओर ले जाता है; (3) CoT उल्लेखनीय नमूना दक्षता प्रदर्शित करता है, जो QA प्रदर्शन को बहुत कम (यहाँ तक कि 80%) डेटा के साथ मेल खाता है। सिद्धांत रूप में, हम दिखाते हैं कि यौगिक कार्य स्वाभाविक रूप से ऐसी शॉर्टकट्स की अनुमति देते हैं जो उचित तर्क सिद्धांतों के साथ असंगत होती हैं, जबकि CoT वैध निर्भरता संरचनाओं के आंतरिककरण को मजबूर करता है, और इस प्रकार बेहतर सामान्यीकरण प्राप्त कर सकता है। इसके अतिरिक्त, हम दिखाते हैं कि ट्रांसफार्मर स्थिति एम्बेडिंग लंबे CoT अनुक्रमों में उपकार्य स्थिति पुनरावृत्ति पर जोर देकर सामान्यीकरण को बढ़ा सकते हैं। हमारा संयुक्त सिद्धांतात्मक और अनुभवात्मक विश्लेषण CoT तर्क को यौगिक कार्यों के लिए वास्तविक दुनिया के वितरणात्मक परिवर्तनों के तहत LM सामान्यीकरण को सक्षम करने के लिए एक महत्वपूर्ण प्रशिक्षण पैरेडाइम के रूप में प्रबल प्रमाण प्रदान करता है।

Read Full Paperexternally

AI से पूछें

Bookmark

View Full Paper