Key points are not available for this paper at this time.
يمتد التعلم التعزيزي الآمن (SafeRL) عن التعلم التعزيزي القياسي بفكرة السلامة، حيث يتم تعريف السلامة عادةً من خلال قيد العائد المتوقع لتكلفة المسار بأن تكون تحت حد معين. ومع ذلك، تفشل هذه المعيار في التمييز بين كيفية تراكم التكاليف، حيث تعالج الأحداث النادرة ذات التكاليف الشديدة على قدم المساواة مع الأحداث المتكررة ذات التكاليف الخفيفة، مما يمكن أن يؤدي إلى سلوكيات أكثر خطورة وينتج عنه استكشاف غير آمن. نقدم مقياسًا جديدًا، وهو خطوات التكلفة المتتالية القصوى المتوقعة (EMCC)، الذي يعالج السلامة أثناء التدريب من خلال تقييم شدة الخطوات غير الآمنة بناءً على حدوثها المتتالي. يكون هذا المقياس فعالًا بشكل خاص في التمييز بين انتهاكات السلامة المطولة والعرضية. نطبق EMMC في كل من الخوارزميات وفقًا للسياسات وخارجها لتقييم قدرتها على الاستكشاف الآمن. أخيرًا، نتحقق من دقة مقياسنا من خلال مجموعة من معايير التقييم ونقترح مهمة معيارية خفيفة جديدة، مما يسمح بتقييم سريع لتصميم الخوارزميات.
درس إكل وآخرون (Mon,) هذا السؤال.