What type of study is this?

This is a Experimental Study study.

October 13, 2025Open Access

डायनामिक रिवॉर्ड वेटिंग के माध्यम से मल्टी-ऑब्जेक्टिव संरेखण को अनुकूलित करना सीखना

Key Points

डायनामिक रिवॉर्ड वेटिंग ऑनलाइन प्राथमिकता संरेखण को प्रभावी ढंग से सुधारती है, गैर-अवतरित पैरेटो फ्रंट की सीमाओं को संबोधित करती है।
हमारे विधियाँ कम प्रशिक्षण चरणों में स्थिर-वेट रैखिक स्केलराइजेशन बेसलाइन की तुलना में पैरेटो प्रमुख समाधान प्राप्त करती हैं।
हमने बेहतर सामान्यीकरण के लिए हाइपरवोल्यूम-निर्देशित वजन अनुकूलन और ग्रेडिएंट-आधारित वजन अनुकूलन प्रस्तुत किए।
प्रयोग लोकप्रिय एल्गोरिदम जैसे GRPO, REINFORCE, और RLOO के साथ संगतता दिखाते हैं, जो विविध अनुप्रयोगिता को प्रमाणित करते हैं।

Abstract

मल्टी-ऑब्जेक्टिव रिइन्फोर्समेंट लर्निंग में पूर्व के कार्य सामान्यतः फिक्स्ड वेट्स के साथ रैखिक इनाम स्केलराइजेशन का उपयोग करते हैं, जो गैर-अवतरित पैरेटो फ्रंट्स को पकड़ने में असफल साबित होते हैं और इस प्रकार उपयुक्त परिणाम प्रदान नहीं कर पाते। यह सीमा विशेष रूप से बड़े भाषा मॉडल्स के लिए ऑनलाइन प्राथमिकता संरेखण में महत्वपूर्ण हो जाती है। यहां, पैरामीटरयुक्त नीतियों द्वारा उत्पन्न स्टोकास्टिक ट्राजेक्टोरियाँ पैरामीटर से उद्देश्यों तक अत्यंत गैर-रेखीय और गैर-अवतरित मानचित्रण बनाती हैं, जिन्हें कोई भी स्थिर वेटिंग योजना इष्टतम संतुलन नहीं पा सकती। हम इस सीमा को डायनामिक रिवॉर्ड वेटिंग प्रस्तुत करके संबोधित करते हैं, जो ऑनलाइन रिइन्फोर्समेंट लर्निंग प्रक्रिया के दौरान पुरस्कार वज़न को अनूकूली रूप से समायोजित करती है। मौजूदा तरीकों के विपरीत जो फिक्स्ड-वेट इंटरपोलेशन पर निर्भर होते हैं, हमारी डायनामिक वेटिंग प्रशिक्षण में उद्देश्यों के बीच निरंतर संतुलन और प्राथमिकता स्थापित करती है, जो उद्देश्य स्थान में पैरेटो फ्रंट्स के प्रभावी अन्वेषण की सुविधा प्रदान करती है। हम दो बढ़ती जटिलता और सामान्यीकरण के दृष्टिकोण प्रस्तुत करते हैं: (1) हाइपरवोल्यूम-निर्देशित वजन अनुकूलन और (2) ग्रेडिएंट-आधारित वजन अनुकूलन, जो ऑनलाइन मल्टी-ऑब्जेक्टिव संरेखण के लिए एक बहुमुखी टूलकिट प्रदान करते हैं। हमारे व्यापक प्रयोग यह दिखाते हैं कि ये आम ऑनलाइन रिइन्फोर्समेंट लर्निंग एल्गोरिदम (जैसे GRPO, REINFORCE, और RLOO) के साथ संगत हैं, कई गणितीय तर्क डेटा सेट्स में प्रभावी हैं, और विभिन्न मॉडल परिवारों पर लागू होते हैं, जिससे स्थिर-वेट रैखिक स्केलराइजेशन बेसलाइनों की तुलना में कम प्रशिक्षण चरणों में पैरेटो प्रमुख समाधान लगातार हासिल होते हैं।

डायनामिक रिवॉर्ड वेटिंग के माध्यम से मल्टी-ऑब्जेक्टिव संरेखण को अनुकूलित करना सीखना

Key Points

Abstract

Cite This Study