Key points are not available for this paper at this time.
في هذه الورقة، نقدم برهانًا بسيطًا من الصفر على تقارب خوارزمية تحسين السياسة (PIA) لمشكلة التحكم العشوائي المنتظم بالانتروبيا على مدار الزمن. لقد تم إثبات هذا التقارب من قبل هوانغ-وانغ-تشو (2023) باستخدام تقديرات PDE المعقدة للمعادلات التفاضلية الجزئية التكرارية المعنية في PIA. تستند طريقتنا إلى بعض صيغ التمثيل الاحتمالي من نوع فينمان-كاك لحل PDE ومشتقاتها. علاوة على ذلك، في النموذج الذي يمتد إلى الأفق اللامتناهي مع عامل خصم كبير وفي النموذج المحدود الأفق، نحصل على معدل تقارب أسي بنفس الحجج.
درس ما وآخرون (سون) هذا السؤال.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: