Key points are not available for this paper at this time.
साहित्य में ऑफ-पॉलिसी मूल्यांकन में एक बढ़ती हुई रुचि देखी गई है, जैसे कि अनुशंसा प्रणाली और व्यक्तिगत चिकित्सा। अब तक, हमने पूर्वाग्रहित लॉग डेटा पर आधारित प्रतिकूल नीतियों की प्रभावशीलता को सटीकता से अनुमानित करने के लिए लक्ष्यित अनुमानों के विकास में महत्वपूर्ण प्रगति देखी है। हालाँकि, ऐसे कई मामले हैं जहाँ उन अनुमानों का उपयोग केवल निर्णय लेने की नीतियों के मूल्य का आकलन करने के लिए नहीं किया जाता है, बल्कि बड़े उम्मीदवार स्पेस से सबसे अच्छे हाइपरपैरामीटर खोजने के लिए भी किया जाता है। यह कार्य ऑफ-पॉलिसी लर्निंग के लिए अंतिम हाइपरपैरामीटर ऑप्टिमाइजेशन (HPO) कार्य का अन्वेषण करता है। हम अनुभवात्मक रूप से दिखाते हैं कि HPO में सामान्यीकरण प्रदर्शन के निरपेक्ष अनुमापनकर्ता को सट्टा लक्ष्य के रूप में लागू करने से एक अप्रत्याशित विफलता हो सकती है, केवल उन हाइपरपैरामीटर का पीछा करते हुए जिनका सामान्यीकरण प्रदर्शन बहुत अधिक आंका जाता है। फिर हम उपर्युक्त मुद्दों से निपटने के लिए सामान्य HPO प्रक्रिया में सरल और संगणनात्मक रूप से कुशल सुधारों का प्रस्ताव करते हैं। अनुभवात्मक जांचें दर्शाती हैं कि हमारे प्रस्तावित HPO एल्गोरिदम की प्रभावशीलता उन परिस्थितियों में है जहाँ सामान्य प्रक्रिया गंभीर रूप से विफल होती है।
साइतो एट अल। (मंगलवार,) ने इस प्रश्न का अध्ययन किया।
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: