What type of study is this?

This is a Quantitative Study study.

October 9, 2025Open Access

बिना इनाम मॉडलिंग के बड़े दृष्टि-भाषा मॉडल फीडबैक से नीति अधिगम

Key Points

PLARE रोबोटिक मैनिपुलेशन में मौजूदा VLM-आधारित विधियों की तुलना में प्रतिस्पर्धी प्रदर्शन करता है।
यह दृष्टिकोण प्राथमिकता लेबल क्वेरीज के माध्यम से श्रम-गहन पुरस्कार फ़ंक्शन डिज़ाइन की आवश्यकता को समाप्त करता है।
प्रयोग PLARE के वास्तविक दुनिया के रोबोटिक मैनिपुलेशन कार्यों में प्रभावशाली अनुप्रयोग को दर्शाते हैं।
यह विधि महंगे ऑनलाइन डेटा संग्रह पर निर्भरता को कम करके सुरक्षा में सुधार करती है।

Abstract

ऑफ़लाइन पुनर्कथन अधिगम (RL) रोबोटिक एजेंटों को प्रशिक्षण देने के लिए पूर्व-संकलित, उप-निष्कर्षण डेटा सेटों का उपयोग करने के लिए एक शक्तिशाली ढांचा प्रदान करता है, जिससे महंगे, समय-गहन, और संभावित रूप से खतरनाक ऑनलाइन इंटरैक्शन की आवश्यकता समाप्त हो जाती है। यह सुरक्षा-क्रिटिकल वास्तविक-दुनिया के अनुप्रयोगों में विशेष रूप से उपयोगी है, जहां ऑनलाइन डेटा संग्रह महंगा और अव्यवहारिक है। हालाँकि, मौजूदा ऑफ़लाइन RL एल्गोरिदम आमतौर पर पुरस्कार लेबल वाले डेटा की आवश्यकता होती है, जिससे एक अतिरिक्त बाधा उत्पन्न होती है: पुरस्कार फ़ंक्शन डिज़ाइन स्वयं महंगा, श्रम-गहन, और महत्वपूर्ण क्षेत्र विशेषज्ञता की आवश्यकता रखता है। इस पत्र में, हम PLARE का परिचय देते हैं, जो बड़े दृष्टि-भाषा मॉडलों (VLMs) का लाभ उठाते हुए एजेंट प्रशिक्षण के लिए मार्गदर्शक सिग्नल प्रदान करने के लिए एक नवीन दृष्टिकोण है। вручय पुरस्कार फ़ंक्शन पर निर्भर रहने के बजाय, PLARE एक语言 कार्य विवरण के आधार पर दृश्य पथ खंडों के युग्मों पर प्राथमिकता लेबलों के लिए VLM से पूछता है। नीति फिर इन प्राथमिकता लेबलों से सीधे प्रशिक्षित की जाती है, जिससे स्पष्ट पुरस्कार मॉडलों को सीखने की आवश्यकता समाप्त हो जाती है। मेटावर्ल्ड से रोबोटिक मैनिपुलेशन कार्यों पर व्यापक प्रयोगों के माध्यम से, PLARE मौजूदा सर्वोत्तम VLM-आधारित पुरस्कार उत्पादन विधियों के साथ बराबरी या उससे बेहतर प्रदर्शन करता है। इसके अलावा, हम एक भौतिक रोबोट के साथ वास्तविक दुनिया के मैनिपुलेशन कार्यों में PLARE की प्रभावशीलता को प्रदर्शित करते हैं, जो इसके व्यावहारिक अनुप्रयोग की अधिक पुष्टि करता है।

Read Full Paperexternally

AI से पूछें

Bookmark

View Full Paper