June 16, 2024Open Access

حول التقارب ومعدل تقارب خوارزميات تحسين السياسة

Key Points

Key points are not available for this paper at this time.

Abstract

في هذه الورقة، نقدم برهانًا بسيطًا من الصفر على تقارب خوارزمية تحسين السياسة (PIA) لمشكلة التحكم العشوائي المنتظم بالانتروبيا على مدار الزمن. لقد تم إثبات هذا التقارب من قبل هوانغ-وانغ-تشو (2023) باستخدام تقديرات PDE المعقدة للمعادلات التفاضلية الجزئية التكرارية المعنية في PIA. تستند طريقتنا إلى بعض صيغ التمثيل الاحتمالي من نوع فينمان-كاك لحل PDE ومشتقاتها. علاوة على ذلك، في النموذج الذي يمتد إلى الأفق اللامتناهي مع عامل خصم كبير وفي النموذج المحدود الأفق، نحصل على معدل تقارب أسي بنفس الحجج.

Read Full Paperexternally

اسأل الذكاء الاصطناعي

Bookmark

View Full Paper