मॉडल पूर्वानुमान नियंत्रण (MPC)-आधारित पुनर्बलन सीखने (RL) गहरे न्यूरल नेटवर्क (DNN)-आधारित RL विधियों के लिए एक संरचित और व्याख्याशील विकल्प प्रदान करता है, जिसमें कम गणनात्मक जटिलता और अधिक पारदर्शिता होती है। हालांकि, मानक MPC-RL दृष्टिकोण अक्सर धीमी अभिसरण, सीमित पैरामीटरकरण के कारण उप-आवश्यक नीति सीखने, और ऑनलाइन अनुकूलन के दौरान सुरक्षा समस्याओं का सामना करते हैं। इन चुनौतियों का समाधान करने के लिए, हम एक नवीन ढांचा प्रस्तावित करते हैं जो MPC-RL को मल्टी-उद्देश्य बायेसियन अनुकूलन (MOBO) के साथ एकीकृत करता है। प्रस्तावित MPC-RL-MOBO RL स्टेज लागत और इसके ग्रेडिएंट के शोरयुक्त आकलनों का उपयोग करता है, जिसे एक संगत निर्धारण नीति ग्रेडिएंट (CDPG) दृष्टिकोण के माध्यम से अनुमानित किया गया है, और इन्हें अपेक्षित हाइपरवॉल्यूम सुधार (EHVI) अधिग्रहण फ़ंक्शन का उपयोग कर MOBO एल्गोरिद्म में शामिल किया जाता है। यह विलय MPC पैरामीटरों के कुशल और सुरक्षित ट्यूनिंग को सक्षम बनाता है ताकि मॉडल की दोषताओं के तहत भी सुधारित बंद-लूप प्रदर्शन हासिल किया जा सके। एक संख्यात्मक उदाहरण प्रस्तावित दृष्टिकोण की प्रभावशीलता को नियंत्रक प्रणालियों के लिए नमूना-कुशल, स्थिर, और उच्च-प्रदर्शन सीखने में प्रदर्शित करता है।
Esfahani et al. (Mon,) ने इस प्रश्न का अध्ययन किया।