March 24, 2024Open Access

ऑफलाइन कौशल प्रसार के माध्यम से मजबूत नीति शिक्षण

Key Points

Key points are not available for this paper at this time.

Abstract

कौशल-आधारित रेज़िनफोर्समेंट लर्निंग (RL) दृष्टिकोणों ने विशेष रूप से पदानुक्रमात्मक संरचनाओं के माध्यम से लंबे क्षितिज कार्यों को हल करने में काफी संभावनाएँ दिखाई हैं। ये कौशल, जो ऑफलाइन डेटा सेट से कार्य-स्वतंत्र रूप से सीखे जाते हैं, नए कार्यों के लिए नीति शिक्षण प्रक्रिया को तेज़ कर सकते हैं। फिर भी, विभिन्न क्षेत्रों में इन कौशलों का आवेदन उनके अंतर्निहित डेटा सेट पर निर्भरता के कारण सीमित है, जो तब एक चुनौती बन जाता है जब एक लक्षित क्षेत्र के लिए RL के माध्यम से कौशल-आधारित नीति सीखने का प्रयास किया जाता है जो डेटा सेट के क्षेत्रों से भिन्न है। इस पेपर में, हम एक नवीन ऑफलाइन कौशल शिक्षण ढांचा DuSkill प्रस्तुत करते हैं जो सीमित कौशलों से विस्तारित बहुपरकार कौशल उत्पन्न करने के लिए एक मार्गदर्शित प्रसार मॉडल का उपयोग करता है, इस प्रकार विभिन्न क्षेत्रों में कार्यों के लिए नीति शिक्षण की मजबूती को बढ़ाता है। विशेष रूप से, हम कौशल एम्बेडिंग स्थान को दो अलग-अलग प्रतिनिधित्वों में विभाजित करने के लिए पदानुक्रमिक एन्कोडिंग के साथ मिलाकर एक मार्गदर्शित प्रसार आधारित कौशल डिकोडर तैयार करते हैं, एक का उद्देश्य क्षेत्र-निष्क्रिय व्यवहारों को संक्षेपित करना है और दूसरे का उद्देश्य व्यवहारों में क्षेत्र भिन्नताओं को प्रेरित करने वाले कारकों को स्पष्ट करना है। हमारा DuSkill ढांचा ऑफलाइन सीखे गए कौशलों की विविधता को बढ़ाता है, इस प्रकार विभिन्न क्षेत्रों के लिए उच्च-स्तरीय नीतियों के शिक्षण प्रक्रिया को तेज़ करने में सक्षम बनाता है। प्रयोगों के माध्यम से, हम दिखाते हैं कि DuSkill कई लंबे क्षितिज कार्यों के लिए अन्य कौशल-आधारित अनुकरण शिक्षण और RL एल्गोरिदम को सफलतापूर्वक पार करता है, जोFew-shot अनुकरण और ऑनलाइन RL में इसके लाभों का प्रदर्शन करता है।

ऑफलाइन कौशल प्रसार के माध्यम से मजबूत नीति शिक्षण

Key Points

Abstract

Cite This Study

Also Consider

Also Consider