अनुकरण शिक्षण का उद्देश्य विशेषज्ञ प्रदर्शनों को देखकर नीति सीखना है, बिना वातावरण से पुरस्कार संकेतों का उपयोग किए। जनरेटिव एडवर्सेरियल अनुकरण शिक्षण (GAIL) अनुकरण शिक्षण को एडवर्सेरियल शिक्षण के रूप में फॉर्मूलेट करता है, जिसमें विशेषज्ञ व्यवहार की अनुकरण के लिए एक जनरेटर नीति सीखने और विशेषज्ञ प्रदर्शनों को एजेंट के क्रमों से भिन्न करने के लिए विवेचक सीखने का उपयोग किया जाता है। इसके उत्साहवर्धक परिणामों के बावजूद, GAIL प्रशिक्षण अक्सर कमजोर और अस्थिर होता है। जनरेटिव मॉडलिंग में डिफ्यूजन मॉडलों की हालिया प्रभुसत्ता से प्रेरित होकर, यह कार्य डिफ्यूजन-रिवॉर्ड एडवर्सेरियल अनुकरण शिक्षण (DRAIL) का प्रस्ताव करता है, जो GAIL में एक डिफ्यूजन मॉडल को एकीकृत करता है, जिसका उद्देश्य नीति शिक्षण के लिए अधिक सटीक और स्मूथ रिवॉर्ड उत्पन्न करना है। विशेष रूप से, हम एक डिफ्यूजन विवेचनात्मक वर्गीकरणकर्ता प्रस्तावित करते हैं ताकि एक संवर्धित विवेचक का निर्माण किया जा सके; फिर, हम नीति शिक्षण के लिए वर्गीकरणकर्ता के आउटपुट के आधार पर डिफ्यूजन रिवॉर्ड्स को डिजाइन करते हैं। हम नेविगेशन, मैनिपुलेशन, और लोकोमोशन में व्यापक प्रयोग करते हैं, DRAIL की प्रभावशीलता की पुष्टि करते हैं पिछले अनुकरण शिक्षण विधियों की तुलना में। इसके अतिरिक्त, अतिरिक्त प्रयोगात्मक परिणाम DRAIL की सामान्यता और डेटा दक्षता को प्रदर्शित करते हैं। GAIL और DRAIL के दृश्य अनुरूपित रिवॉर्ड फ़ंक्शन सुझाव देते हैं कि DRAIL अधिक सटीक और स्मूथ रिवॉर्ड उत्पन्न कर सकता है।
लैइ एट अल। (शनि,) ने इस प्रश्न का अध्ययन किया।