Key points are not available for this paper at this time.
हम सुदृढीकरण शिक्षण (RL) के भीतर विकेन्द्रीय गैर-पैरामीट्रिक नीति मूल्यांकन समस्या का अध्ययन करते हैं, उन परिदृश्यों पर ध्यान केंद्रित करते हुए जहां कई एजेंट सामूहिक रूप से नमूना राज्य संक्रमण और निजी रूप से देखे गए पुरस्कारों का उपयोग करते हुए राज्य-मूल्य कार्य को सीखने के लिए सहयोग करते हैं। हमारी पद्धति अनंत-आयामीय ग्रेडिएंट डिसेंट (GD) का उपयोग करते हुए एक रिग्रेशन-आधारित बहु-चरण पुनरावृत्ति तकनीक पर केंद्रित है, जो एक पुनरुत्पादक कर्नेल हिल्बर्ट स्पेस (RKHS) में लागू होती है। गणना और संचार को अधिक संभव बनाने के लिए, हम इस स्पेस को एक सीमित-आयामी स्पेस में प्रक्षिप्त करने के लिए नायस्ट्रॉम अनुमान का उपयोग करते हैं। हम मूल्य कार्य मूल्यांकन के अभिसरण का वर्णन करने के लिए सांख्यिकीय त्रुटि सीमाएँ स्थापित करते हैं, जो एक पूर्ण विकेन्द्रीय गैर-पैरामीट्रिक ढांचे में ऐसी विश्लेषण का पहला उदाहरण है। हम कुछ संख्यात्मक अध्ययन में रिग्रेशन-आधारित विधि की तुलना कर्नेल समयांतर (TD) विधि से करते हैं।
लियू et al. (मंगल,) ने इस प्रश्न का अध्ययन किया।