Key points are not available for this paper at this time.
لقد حظيت عمليات صنع القرار ماركوف القوية (RMDPs) باهتمام بحثي كبير، حيث تقدم بديلاً لعمليات صنع القرار ماركوف القياسية (MDPs) التي غالباً ما تفترض احتمالات انتقال ثابتة. تعالج RMDPs هذا من خلال تحسين سيناريوهات أسوأ الحالات ضمن مجموعات الغموض. بينما كانت الدراسات السابقة على RMDPs تدور في الغالب حول تعلم التعزيز خالي المخاطر (RL)، بهدف تقليل التكاليف الإجمالية المخفضة المتوقعة، نقوم في هذه الورقة بتحليل قوة التعلم القائم على CVaR تحت RMDP. أولاً، نعتبر مجموعات الغموض المحددة مسبقًا. استنادًا إلى تماسك CVaR، نؤسس علاقة بين القوة وحساسية المخاطر، وبالتالي، يمكن اعتماد تقنيات في تعلم التعزيز حساس للمخاطر لحل المشكلة المقترحة. علاوة على ذلك، بدافع وجود عدم اليقين المعتمد على القرار في مشاكل العالم الحقيقي، ندرس مشاكل ذات مجموعات غموض تعتمد على حالة الفعل. لحل هذا، نعرف مقياس مخاطر جديد يُدعى NCVaR ونبني مكافئة تحسين NCVaR وتحسين CVaR القوي. نقترح أيضًا خوارزميات تكرار القيمة ونحقق في نهجنا من خلال تجارب المحاكاة.
درس ني وآخرون (الخميس) هذا السؤال.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: