Key points are not available for this paper at this time.
हम एक सेटिंग में इंटरएक्टिव लर्निंग का अध्ययन करते हैं जहाँ एजेंट को एक संदर्भ और एक निर्देश दिए जाने पर एक प्रतिक्रिया (जैसे, एक क्रिया या पथ) उत्पन्न करनी होती है। सामान्य दृष्टिकोणों के विपरीत जो प्रतिक्रिया पर पुरस्कार या विशेषज्ञ पर्यवेक्षण का उपयोग करके सिस्टम को प्रशिक्षित करते हैं, हम पश्चदृष्टि निर्देश के साथ लर्निंग का अध्ययन करते हैं जहाँ एक शिक्षक एक ऐसा निर्देश प्रदान करता है जो एजेंट की उत्पन्न प्रतिक्रिया के लिए सबसे उपयुक्त होता है। इस पश्चदृष्टि लेबलिंग का निर्देश अक्सर उस भावी प्रतिक्रिया के विशेषज्ञ पर्यवेक्षण प्रदान करने के मुकाबले अधिक आसान होता है, जिसके लिए विशेषज्ञ ज्ञान की आवश्यकता हो सकती है या जो प्रदर्शन करने में व्यावहारिक नहीं हो सकता है। हम पश्चदृष्टि लेबलिंग के साथ इंटरएक्टिव लर्निंग का सैद्धांतिक विश्लेषण आरंभ करते हैं। हम सबसे पहले एक निम्न सीमा प्रदान करते हैं जो दर्शाती है कि सामान्य रूप से, किसी भी एल्गोरिदम की पछतावा एजेंट की प्रतिक्रिया अंतरिक्ष के आकार के साथ बढ़ता है। फिर हम एक विशेष सेटिंग को अध्ययन करते हैं जहाँ अंतर्निहित दिशा-प्रतिक्रिया वितरण को एक निम्न-रैंक मैट्रिक्स के रूप में विभाजित किया जा सकता है। हम इस सेटिंग के लिए LORIL नामक एक एल्गोरिदम पेश करते हैं और दिखाते हैं कि इसका पछतावा T के रूप में बढ़ता है जहाँ T राउंड्स की संख्या है और अंतर्निहित रैंक पर निर्भर करता है लेकिन एजेंट की प्रतिक्रिया अंतरिक्ष के आकार पर निर्भर नहीं करता। हम दो क्षेत्रों में प्रयोग प्रदान करते हैं जो दिखाते हैं कि LORIL मूलभूत अवधारणाओं को पार करता है, भले ही निम्न-रैंक धारणा का उल्लंघन किया गया हो।
मिश्रा और अन्य (संत,) ने इस प्रश्न का अध्ययन किया।
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: