January 22, 2019

تحكم تتبع غير خطي مُحسن باستخدام استراتيجية تعلم تعزيز الممثل - الناقد

Key Points

Key points are not available for this paper at this time.

Abstract

تقترح هذه الورقة نهجًا مُحسنًا للتحكم في التتبع باستخدام التعلم المعزز القائم على الشبكة العصبية (NN) لفئة من الأنظمة الديناميكية غير الخطية، والتي تتطلب كل من التتبع والتحسين ليتم تنفيذهما في وقت واحد. عمومًا، للحصول على حل تحكم مثالي، يُتوقع أن تكون معادلة هاملتون-جاكوب-بيلمان قابلة للحل، ولكن، نظرًا للخطية القوية، فإن حل المعادلة يكون صعبًا أو حتى مستحيلًا بواسطة طرق تحليلية. لذلك، يُعتبر عادةً التغريب التكيفي القائم على شبكة عصبية تقريبية. في تصميم التحكم المُحسن، من أجل دفع حالة الناتج لتتبع المسار المرغوب، يتم تقسيم مصطلح الخطأ من دالة مؤشر الأداء المثالي، ثم يتم بناء كل من الشبكة العصبية للممثل والشبكة العصبية للناقد لتنفيذ خوارزمية التعلم المعزز. تهدف الشبكة العصبية للممثل إلى تنفيذ سلوكيات التحكم، بينما تهدف الشبكة العصبية للناقد إلى تقييم أداء التحكم وتقديم تغذية راجعة للممثل. يُختتم إثبات الاستقرار بأن الأداء المرغوب في التحكم قد تم الحصول عليه. تم تصميم وتنفيذ محاكاة عددية، وتم عرض النتائج المرغوبة.

Bookmark

تحكم تتبع غير خطي مُحسن باستخدام استراتيجية تعلم تعزيز الممثل - الناقد

Key Points

Abstract

Cite This Study

Also Consider

Also Consider