Key points are not available for this paper at this time.
تقدم هذه الورقة مخططًا بيانيًا عامًا للحالة الراهنة في تطوير عمليات اتخاذ القرار لماركوف (MDPs). تفتح هذه النظامية طرقًا لتعزيز مجال التعلم المعزز (RL)، من خلال إنشاء خوارزميات التعلم المعزز استنادًا إلى نماذج MDP الجديدة أو المعدلة. تحتوي الورقة على نظرة عامة على بيئات التعلم المعزز ونتائج تجريبية لاستخدام بيئات مختلفة في التعلم المعزز متعدد الوكلاء. تم إجراء البحث التجريبي لنماذج MDP في بيئات رقمية قياسية للتعلم الآلي: MuJoCo و SMAC.
درس كيريل أ. مورو زوف (الخميس) هذا السؤال.
Synapse has enriched 4 closely related papers on similar clinical questions. Consider them for comparative context: