May 25, 2024Open Access

डिफ्यूजन-रिवॉर्ड एडवर्सेरियल अनुकरण शिक्षण

Key Points

DRAIL नीति सीखने के लिए स्मूथर रिवॉर्ड्स उत्पन्न करता है, समग्र अनुकरण शिक्षण प्रदर्शन को बढ़ाता है।
प्रयोगों में, DRAIL पारंपरिक विधियों जैसे GAIL को पीछे छोड़ता है, बेहतर स्थिरता और दक्षता प्राप्त करता है।
यह विधि प्रशिक्षण प्रक्रिया में डिफ्यूजन मॉडलों को एकीकृत करती है, क्रमों और विशेषज्ञ व्यवहार को भिन्न करने में विवेचक की प्रभावशीलता में सुधार करती है। इसे कई कार्यों में परीक्षण किया गया है, जिसमें नेविगेशन और मैनिपुलेशन शामिल हैं, जो इसके बहुगुणात्मकता और सामान्यता को उजागर करता है।

Abstract

अनुकरण शिक्षण का उद्देश्य विशेषज्ञ प्रदर्शनों को देखकर नीति सीखना है, बिना वातावरण से पुरस्कार संकेतों का उपयोग किए। जनरेटिव एडवर्सेरियल अनुकरण शिक्षण (GAIL) अनुकरण शिक्षण को एडवर्सेरियल शिक्षण के रूप में फॉर्मूलेट करता है, जिसमें विशेषज्ञ व्यवहार की अनुकरण के लिए एक जनरेटर नीति सीखने और विशेषज्ञ प्रदर्शनों को एजेंट के क्रमों से भिन्न करने के लिए विवेचक सीखने का उपयोग किया जाता है। इसके उत्साहवर्धक परिणामों के बावजूद, GAIL प्रशिक्षण अक्सर कमजोर और अस्थिर होता है। जनरेटिव मॉडलिंग में डिफ्यूजन मॉडलों की हालिया प्रभुसत्ता से प्रेरित होकर, यह कार्य डिफ्यूजन-रिवॉर्ड एडवर्सेरियल अनुकरण शिक्षण (DRAIL) का प्रस्ताव करता है, जो GAIL में एक डिफ्यूजन मॉडल को एकीकृत करता है, जिसका उद्देश्य नीति शिक्षण के लिए अधिक सटीक और स्मूथ रिवॉर्ड उत्पन्न करना है। विशेष रूप से, हम एक डिफ्यूजन विवेचनात्मक वर्गीकरणकर्ता प्रस्तावित करते हैं ताकि एक संवर्धित विवेचक का निर्माण किया जा सके; फिर, हम नीति शिक्षण के लिए वर्गीकरणकर्ता के आउटपुट के आधार पर डिफ्यूजन रिवॉर्ड्स को डिजाइन करते हैं। हम नेविगेशन, मैनिपुलेशन, और लोकोमोशन में व्यापक प्रयोग करते हैं, DRAIL की प्रभावशीलता की पुष्टि करते हैं पिछले अनुकरण शिक्षण विधियों की तुलना में। इसके अतिरिक्त, अतिरिक्त प्रयोगात्मक परिणाम DRAIL की सामान्यता और डेटा दक्षता को प्रदर्शित करते हैं। GAIL और DRAIL के दृश्य अनुरूपित रिवॉर्ड फ़ंक्शन सुझाव देते हैं कि DRAIL अधिक सटीक और स्मूथ रिवॉर्ड उत्पन्न कर सकता है।

डिफ्यूजन-रिवॉर्ड एडवर्सेरियल अनुकरण शिक्षण

Key Points

Abstract

Cite This Study