What type of study is this?

This is a Experimental Study study.

October 2, 2025Open Access

औद्योगिक प्रक्रियाओं के intelligente नियंत्रण के लिए पुनर्बलन सीखने और बायेसियन अनुकूलन का प्रतिच्छेदन: मल्टी-उद्देश्य BO का उपयोग करते हुए एक सुरक्षित MPC-आधारित DPG

Key Points

MPC को मल्टी-उद्देश्य बायेसियन अनुकूलन के साथ एकीकृत करना नियंत्रण प्रणाली के प्रदर्शन और अनुकूलन के दौरान सुरक्षा में सुधार करता है।
इस विधि ने एक संख्यात्मक उदाहरण में स्थिरता और उच्च प्रदर्शन बनाए रखते हुए नमूना-कुशल सीखने का प्रदर्शन किया।
अपेक्षित हाइपरवॉल्यूम सुधार फ़ंक्शन का उपयोग पारंपरिक MPC-RL दृष्टिकोणों में सामना की गई चुनौतियों को हल करने में मदद करता है।
प्रस्तावित दृष्टिकोण मॉडल की दोषताओं की उपस्थिति में भी बेहतर पैरामीटर ट्यूनिंग प्राप्त करता है।

Abstract

मॉडल पूर्वानुमान नियंत्रण (MPC)-आधारित पुनर्बलन सीखने (RL) गहरे न्यूरल नेटवर्क (DNN)-आधारित RL विधियों के लिए एक संरचित और व्याख्याशील विकल्प प्रदान करता है, जिसमें कम गणनात्मक जटिलता और अधिक पारदर्शिता होती है। हालांकि, मानक MPC-RL दृष्टिकोण अक्सर धीमी अभिसरण, सीमित पैरामीटरकरण के कारण उप-आवश्यक नीति सीखने, और ऑनलाइन अनुकूलन के दौरान सुरक्षा समस्याओं का सामना करते हैं। इन चुनौतियों का समाधान करने के लिए, हम एक नवीन ढांचा प्रस्तावित करते हैं जो MPC-RL को मल्टी-उद्देश्य बायेसियन अनुकूलन (MOBO) के साथ एकीकृत करता है। प्रस्तावित MPC-RL-MOBO RL स्टेज लागत और इसके ग्रेडिएंट के शोरयुक्त आकलनों का उपयोग करता है, जिसे एक संगत निर्धारण नीति ग्रेडिएंट (CDPG) दृष्टिकोण के माध्यम से अनुमानित किया गया है, और इन्हें अपेक्षित हाइपरवॉल्यूम सुधार (EHVI) अधिग्रहण फ़ंक्शन का उपयोग कर MOBO एल्गोरिद्म में शामिल किया जाता है। यह विलय MPC पैरामीटरों के कुशल और सुरक्षित ट्यूनिंग को सक्षम बनाता है ताकि मॉडल की दोषताओं के तहत भी सुधारित बंद-लूप प्रदर्शन हासिल किया जा सके। एक संख्यात्मक उदाहरण प्रस्तावित दृष्टिकोण की प्रभावशीलता को नियंत्रक प्रणालियों के लिए नमूना-कुशल, स्थिर, और उच्च-प्रदर्शन सीखने में प्रदर्शित करता है।

Key Points

Abstract

Cite This Study