May 2, 2024Open Access

تعلم تعزيز حساس للمخاطر القوي مع القيمة المشروطة للمخاطر

Key Points

Key points are not available for this paper at this time.

Abstract

لقد حظيت عمليات صنع القرار ماركوف القوية (RMDPs) باهتمام بحثي كبير، حيث تقدم بديلاً لعمليات صنع القرار ماركوف القياسية (MDPs) التي غالباً ما تفترض احتمالات انتقال ثابتة. تعالج RMDPs هذا من خلال تحسين سيناريوهات أسوأ الحالات ضمن مجموعات الغموض. بينما كانت الدراسات السابقة على RMDPs تدور في الغالب حول تعلم التعزيز خالي المخاطر (RL)، بهدف تقليل التكاليف الإجمالية المخفضة المتوقعة، نقوم في هذه الورقة بتحليل قوة التعلم القائم على CVaR تحت RMDP. أولاً، نعتبر مجموعات الغموض المحددة مسبقًا. استنادًا إلى تماسك CVaR، نؤسس علاقة بين القوة وحساسية المخاطر، وبالتالي، يمكن اعتماد تقنيات في تعلم التعزيز حساس للمخاطر لحل المشكلة المقترحة. علاوة على ذلك، بدافع وجود عدم اليقين المعتمد على القرار في مشاكل العالم الحقيقي، ندرس مشاكل ذات مجموعات غموض تعتمد على حالة الفعل. لحل هذا، نعرف مقياس مخاطر جديد يُدعى NCVaR ونبني مكافئة تحسين NCVaR وتحسين CVaR القوي. نقترح أيضًا خوارزميات تكرار القيمة ونحقق في نهجنا من خلال تجارب المحاكاة.

تعلم تعزيز حساس للمخاطر القوي مع القيمة المشروطة للمخاطر

Key Points

Abstract

Cite This Study

Also Consider

Also Consider