मल्टी-ऑब्जेक्टिव रिइन्फोर्समेंट लर्निंग में पूर्व के कार्य सामान्यतः फिक्स्ड वेट्स के साथ रैखिक इनाम स्केलराइजेशन का उपयोग करते हैं, जो गैर-अवतरित पैरेटो फ्रंट्स को पकड़ने में असफल साबित होते हैं और इस प्रकार उपयुक्त परिणाम प्रदान नहीं कर पाते। यह सीमा विशेष रूप से बड़े भाषा मॉडल्स के लिए ऑनलाइन प्राथमिकता संरेखण में महत्वपूर्ण हो जाती है। यहां, पैरामीटरयुक्त नीतियों द्वारा उत्पन्न स्टोकास्टिक ट्राजेक्टोरियाँ पैरामीटर से उद्देश्यों तक अत्यंत गैर-रेखीय और गैर-अवतरित मानचित्रण बनाती हैं, जिन्हें कोई भी स्थिर वेटिंग योजना इष्टतम संतुलन नहीं पा सकती। हम इस सीमा को डायनामिक रिवॉर्ड वेटिंग प्रस्तुत करके संबोधित करते हैं, जो ऑनलाइन रिइन्फोर्समेंट लर्निंग प्रक्रिया के दौरान पुरस्कार वज़न को अनूकूली रूप से समायोजित करती है। मौजूदा तरीकों के विपरीत जो फिक्स्ड-वेट इंटरपोलेशन पर निर्भर होते हैं, हमारी डायनामिक वेटिंग प्रशिक्षण में उद्देश्यों के बीच निरंतर संतुलन और प्राथमिकता स्थापित करती है, जो उद्देश्य स्थान में पैरेटो फ्रंट्स के प्रभावी अन्वेषण की सुविधा प्रदान करती है। हम दो बढ़ती जटिलता और सामान्यीकरण के दृष्टिकोण प्रस्तुत करते हैं: (1) हाइपरवोल्यूम-निर्देशित वजन अनुकूलन और (2) ग्रेडिएंट-आधारित वजन अनुकूलन, जो ऑनलाइन मल्टी-ऑब्जेक्टिव संरेखण के लिए एक बहुमुखी टूलकिट प्रदान करते हैं। हमारे व्यापक प्रयोग यह दिखाते हैं कि ये आम ऑनलाइन रिइन्फोर्समेंट लर्निंग एल्गोरिदम (जैसे GRPO, REINFORCE, और RLOO) के साथ संगत हैं, कई गणितीय तर्क डेटा सेट्स में प्रभावी हैं, और विभिन्न मॉडल परिवारों पर लागू होते हैं, जिससे स्थिर-वेट रैखिक स्केलराइजेशन बेसलाइनों की तुलना में कम प्रशिक्षण चरणों में पैरेटो प्रमुख समाधान लगातार हासिल होते हैं।
Lu et al. (Sun,) ने इस प्रश्न का अध्ययन किया।