Key points are not available for this paper at this time.
تقترح هذه الورقة نهجًا مُحسنًا للتحكم في التتبع باستخدام التعلم المعزز القائم على الشبكة العصبية (NN) لفئة من الأنظمة الديناميكية غير الخطية، والتي تتطلب كل من التتبع والتحسين ليتم تنفيذهما في وقت واحد. عمومًا، للحصول على حل تحكم مثالي، يُتوقع أن تكون معادلة هاملتون-جاكوب-بيلمان قابلة للحل، ولكن، نظرًا للخطية القوية، فإن حل المعادلة يكون صعبًا أو حتى مستحيلًا بواسطة طرق تحليلية. لذلك، يُعتبر عادةً التغريب التكيفي القائم على شبكة عصبية تقريبية. في تصميم التحكم المُحسن، من أجل دفع حالة الناتج لتتبع المسار المرغوب، يتم تقسيم مصطلح الخطأ من دالة مؤشر الأداء المثالي، ثم يتم بناء كل من الشبكة العصبية للممثل والشبكة العصبية للناقد لتنفيذ خوارزمية التعلم المعزز. تهدف الشبكة العصبية للممثل إلى تنفيذ سلوكيات التحكم، بينما تهدف الشبكة العصبية للناقد إلى تقييم أداء التحكم وتقديم تغذية راجعة للممثل. يُختتم إثبات الاستقرار بأن الأداء المرغوب في التحكم قد تم الحصول عليه. تم تصميم وتنفيذ محاكاة عددية، وتم عرض النتائج المرغوبة.
قام وين وزملاؤه (الثلاثاء) بدراسة هذا السؤال.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: