September 25, 2013

خوارزمية برمجة ديناميكية تكيفية بتكرار السياسات للنظم غير الخطية في الزمن المنفصل

Key Points

Key points are not available for this paper at this time.

Abstract

تتناول هذه الورقة البحثية طريقة جديدة لتكرار السياسات باستخدام البرمجة الديناميكية التكيفية (ADP) لحل مشكلة التحكم الأمثل في الأفق اللانهائي للأنظمة غير الخطية. الفكرة هي استخدام تقنية ADP تكرارية للحصول على قانون التحكم التكراري، الذي يُحسن دالة индекс الأداء التكرارية. المساهمة الرئيسية في هذه الورقة هي تحليل خصائص التقارب والاستقرار لطريقة تكرار السياسات للأنظمة غير الخطية في الزمن المنفصل للمرة الأولى. تُظهر أنه يمكن أن يتقارب مؤشر الأداء التكراري بشكل غير متناقص نحو الحل الأمثل لمعادلة هاملتون-جاكوب-بلمان. كما أنه تم إثبات أن أي من قوانين التحكم التكرارية يمكن أن تُستقر الأنظمة غير الخطية. تستخدم الشبكات العصبية لتقريب دالة مؤشر الأداء وحساب قانون التحكم الأمثل، على التوالي، لتسهيل تنفيذ خوارزمية ADP التكرارية، حيث يتم تحليل تقارب مصفوفات الأوزان. أخيرًا، يتم تقديم النتائج العددية والتحليل لإظهار أداء الطريقة المطورة.

اسأل الذكاء الاصطناعي

Bookmark