ऑफ़लाइन पुनर्कथन अधिगम (RL) रोबोटिक एजेंटों को प्रशिक्षण देने के लिए पूर्व-संकलित, उप-निष्कर्षण डेटा सेटों का उपयोग करने के लिए एक शक्तिशाली ढांचा प्रदान करता है, जिससे महंगे, समय-गहन, और संभावित रूप से खतरनाक ऑनलाइन इंटरैक्शन की आवश्यकता समाप्त हो जाती है। यह सुरक्षा-क्रिटिकल वास्तविक-दुनिया के अनुप्रयोगों में विशेष रूप से उपयोगी है, जहां ऑनलाइन डेटा संग्रह महंगा और अव्यवहारिक है। हालाँकि, मौजूदा ऑफ़लाइन RL एल्गोरिदम आमतौर पर पुरस्कार लेबल वाले डेटा की आवश्यकता होती है, जिससे एक अतिरिक्त बाधा उत्पन्न होती है: पुरस्कार फ़ंक्शन डिज़ाइन स्वयं महंगा, श्रम-गहन, और महत्वपूर्ण क्षेत्र विशेषज्ञता की आवश्यकता रखता है। इस पत्र में, हम PLARE का परिचय देते हैं, जो बड़े दृष्टि-भाषा मॉडलों (VLMs) का लाभ उठाते हुए एजेंट प्रशिक्षण के लिए मार्गदर्शक सिग्नल प्रदान करने के लिए एक नवीन दृष्टिकोण है। вручय पुरस्कार फ़ंक्शन पर निर्भर रहने के बजाय, PLARE एक语言 कार्य विवरण के आधार पर दृश्य पथ खंडों के युग्मों पर प्राथमिकता लेबलों के लिए VLM से पूछता है। नीति फिर इन प्राथमिकता लेबलों से सीधे प्रशिक्षित की जाती है, जिससे स्पष्ट पुरस्कार मॉडलों को सीखने की आवश्यकता समाप्त हो जाती है। मेटावर्ल्ड से रोबोटिक मैनिपुलेशन कार्यों पर व्यापक प्रयोगों के माध्यम से, PLARE मौजूदा सर्वोत्तम VLM-आधारित पुरस्कार उत्पादन विधियों के साथ बराबरी या उससे बेहतर प्रदर्शन करता है। इसके अलावा, हम एक भौतिक रोबोट के साथ वास्तविक दुनिया के मैनिपुलेशन कार्यों में PLARE की प्रभावशीलता को प्रदर्शित करते हैं, जो इसके व्यावहारिक अनुप्रयोग की अधिक पुष्टि करता है।
Luu et al. (Thu,) ने इस प्रश्न का अध्ययन किया।
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: