April 23, 2024Open Access

हाइपरपैरामीटर ऑप्टिमाइजेशन ऑफ-पॉलिसी लर्निंग में हानिकारक हो सकता है और इससे निपटने का तरीका

Key Points

Key points are not available for this paper at this time.

Abstract

साहित्य में ऑफ-पॉलिसी मूल्यांकन में एक बढ़ती हुई रुचि देखी गई है, जैसे कि अनुशंसा प्रणाली और व्यक्तिगत चिकित्सा। अब तक, हमने पूर्वाग्रहित लॉग डेटा पर आधारित प्रतिकूल नीतियों की प्रभावशीलता को सटीकता से अनुमानित करने के लिए लक्ष्यित अनुमानों के विकास में महत्वपूर्ण प्रगति देखी है। हालाँकि, ऐसे कई मामले हैं जहाँ उन अनुमानों का उपयोग केवल निर्णय लेने की नीतियों के मूल्य का आकलन करने के लिए नहीं किया जाता है, बल्कि बड़े उम्मीदवार स्पेस से सबसे अच्छे हाइपरपैरामीटर खोजने के लिए भी किया जाता है। यह कार्य ऑफ-पॉलिसी लर्निंग के लिए अंतिम हाइपरपैरामीटर ऑप्टिमाइजेशन (HPO) कार्य का अन्वेषण करता है। हम अनुभवात्मक रूप से दिखाते हैं कि HPO में सामान्यीकरण प्रदर्शन के निरपेक्ष अनुमापनकर्ता को सट्टा लक्ष्य के रूप में लागू करने से एक अप्रत्याशित विफलता हो सकती है, केवल उन हाइपरपैरामीटर का पीछा करते हुए जिनका सामान्यीकरण प्रदर्शन बहुत अधिक आंका जाता है। फिर हम उपर्युक्त मुद्दों से निपटने के लिए सामान्य HPO प्रक्रिया में सरल और संगणनात्मक रूप से कुशल सुधारों का प्रस्ताव करते हैं। अनुभवात्मक जांचें दर्शाती हैं कि हमारे प्रस्तावित HPO एल्गोरिदम की प्रभावशीलता उन परिस्थितियों में है जहाँ सामान्य प्रक्रिया गंभीर रूप से विफल होती है।

Read Full Paperexternally

AI से पूछें

Bookmark

View Full Paper