Key points are not available for this paper at this time.
प्रवर्तन शिक्षा (RL) ने चतुर्थकाय रोबोट के लिए नियंत्रणकर्ताओं के विकास के लिए एक आशाजनक दृष्टिकोण बन गया है। परंपरागत रूप से, गति के लिए RL डिज़ाइन एक स्थिति-आधारित पैराजाइम का पालन करता है, जहाँ एक RL नीति कम आवृत्ति पर लक्षित ज्वाइंट पोज़िशन आउटपुट करती है, जिन्हें फिर उच्च आवृत्ति के अनुपातात्मक-व्युत्पन्न (PD) नियंत्रक द्वारा ट्रैक किया जाता है ताकि ज्वाइंट टॉर्क उत्पन्न किया जा सके। इसके विपरीत, चतुर्थकाय गति के मॉडल-आधारित नियंत्रण के लिए, स्थिति-आधारित नियंत्रण से टॉर्क-आधारित नियंत्रण की ओर एक पैराजाइम बदलाव आया है। मॉडल-आधारित नियंत्रण में हाल के अग्र advancements के मद्देनज़र, हम स्थिति-आधारित RL पैराजाइम के लिए एक विकल्प की खोज करते हैं, जिसमें एक टॉर्क-आधारित RL ढांचा प्रस्तुत किया गया है, जहाँ एक RL नीति सीधे उच्च आवृत्ति पर ज्वाइंट टॉर्क का अनुमान लगाती है, इस प्रकार PD नियंत्रक के उपयोग को दरकिनार करती है। प्रस्तावित शिक्षण टॉर्क नियंत्रण ढांचा व्यापक प्रयोगों के साथ मान्य किया गया है, जिसमें एक चतुर्थकाय विभिन्न स्थल पर चलने और बाहरी विघटन का सामना करने में सक्षम है जबकि उपयोगकर्ता द्वारा निर्दिष्ट आदेशों का पालन करता है। इसके अतिरिक्त, स्थिति नियंत्रण सीखने की तुलना में, टॉर्क नियंत्रण सीखना उच्च पुरस्कार प्राप्त करने की क्षमता को दर्शाता है और महत्वपूर्ण बाहरी विघटन के प्रति अधिक मजबूत है। हमारी जानकारी के अनुसार, यह चतुर्थकाय गति के अंत-से-अंत टॉर्क नियंत्रण के लिए पहला सिम-टू-रीयल प्रयास है।
चेन एट अल। (मंगल,) ने इस प्रश्न का अध्ययन किया।