September 17, 2024

कर्नेल-आधारित विकेन्द्रीय नीति मूल्यांकन सुदृढीकरण शिक्षण के लिए

Key Points

Key points are not available for this paper at this time.

Abstract

हम सुदृढीकरण शिक्षण (RL) के भीतर विकेन्द्रीय गैर-पैरामीट्रिक नीति मूल्यांकन समस्या का अध्ययन करते हैं, उन परिदृश्यों पर ध्यान केंद्रित करते हुए जहां कई एजेंट सामूहिक रूप से नमूना राज्य संक्रमण और निजी रूप से देखे गए पुरस्कारों का उपयोग करते हुए राज्य-मूल्य कार्य को सीखने के लिए सहयोग करते हैं। हमारी पद्धति अनंत-आयामीय ग्रेडिएंट डिसेंट (GD) का उपयोग करते हुए एक रिग्रेशन-आधारित बहु-चरण पुनरावृत्ति तकनीक पर केंद्रित है, जो एक पुनरुत्पादक कर्नेल हिल्बर्ट स्पेस (RKHS) में लागू होती है। गणना और संचार को अधिक संभव बनाने के लिए, हम इस स्पेस को एक सीमित-आयामी स्पेस में प्रक्षिप्त करने के लिए नायस्ट्रॉम अनुमान का उपयोग करते हैं। हम मूल्य कार्य मूल्यांकन के अभिसरण का वर्णन करने के लिए सांख्यिकीय त्रुटि सीमाएँ स्थापित करते हैं, जो एक पूर्ण विकेन्द्रीय गैर-पैरामीट्रिक ढांचे में ऐसी विश्लेषण का पहला उदाहरण है। हम कुछ संख्यात्मक अध्ययन में रिग्रेशन-आधारित विधि की तुलना कर्नेल समयांतर (TD) विधि से करते हैं।

Bookmark

कर्नेल-आधारित विकेन्द्रीय नीति मूल्यांकन सुदृढीकरण शिक्षण के लिए

Key Points

Abstract

Cite This Study