April 13, 2024Open Access

पश्चदृष्टि निर्देशात्मक फीडबैक के साथ प्रमाणित इंटरएक्टिव लर्निंग

Key Points

Key points are not available for this paper at this time.

Abstract

हम एक सेटिंग में इंटरएक्टिव लर्निंग का अध्ययन करते हैं जहाँ एजेंट को एक संदर्भ और एक निर्देश दिए जाने पर एक प्रतिक्रिया (जैसे, एक क्रिया या पथ) उत्पन्न करनी होती है। सामान्य दृष्टिकोणों के विपरीत जो प्रतिक्रिया पर पुरस्कार या विशेषज्ञ पर्यवेक्षण का उपयोग करके सिस्टम को प्रशिक्षित करते हैं, हम पश्चदृष्टि निर्देश के साथ लर्निंग का अध्ययन करते हैं जहाँ एक शिक्षक एक ऐसा निर्देश प्रदान करता है जो एजेंट की उत्पन्न प्रतिक्रिया के लिए सबसे उपयुक्त होता है। इस पश्चदृष्टि लेबलिंग का निर्देश अक्सर उस भावी प्रतिक्रिया के विशेषज्ञ पर्यवेक्षण प्रदान करने के मुकाबले अधिक आसान होता है, जिसके लिए विशेषज्ञ ज्ञान की आवश्यकता हो सकती है या जो प्रदर्शन करने में व्यावहारिक नहीं हो सकता है। हम पश्चदृष्टि लेबलिंग के साथ इंटरएक्टिव लर्निंग का सैद्धांतिक विश्लेषण आरंभ करते हैं। हम सबसे पहले एक निम्न सीमा प्रदान करते हैं जो दर्शाती है कि सामान्य रूप से, किसी भी एल्गोरिदम की पछतावा एजेंट की प्रतिक्रिया अंतरिक्ष के आकार के साथ बढ़ता है। फिर हम एक विशेष सेटिंग को अध्ययन करते हैं जहाँ अंतर्निहित दिशा-प्रतिक्रिया वितरण को एक निम्न-रैंक मैट्रिक्स के रूप में विभाजित किया जा सकता है। हम इस सेटिंग के लिए LORIL नामक एक एल्गोरिदम पेश करते हैं और दिखाते हैं कि इसका पछतावा T के रूप में बढ़ता है जहाँ T राउंड्स की संख्या है और अंतर्निहित रैंक पर निर्भर करता है लेकिन एजेंट की प्रतिक्रिया अंतरिक्ष के आकार पर निर्भर नहीं करता। हम दो क्षेत्रों में प्रयोग प्रदान करते हैं जो दिखाते हैं कि LORIL मूलभूत अवधारणाओं को पार करता है, भले ही निम्न-रैंक धारणा का उल्लंघन किया गया हो।

Read Full Paperexternally

AI से पूछें

Bookmark

View Full Paper