Key points are not available for this paper at this time.
لقد أحدث التعلم المعزز (RL) ثورة في اتخاذ القرار عبر مجموعة واسعة من المجالات على مدار العقود القليلة الماضية. ومع ذلك، فإن تطبيق سياسات RL في السيناريوهات الواقعية يمثل التحدي الرئيسي المتمثل في ضمان السلامة. وقد ركزت الأساليب التقليدية للتعلم المعزز الآمن بشكل أساسي على دمج قيود السلامة المعرفة مسبقًا في عملية تعلم السياسة. ومع ذلك، فإن الاعتماد على قيود السلامة المعرفة مسبقًا يفرض قيودًا في البيئات الديناميكية وغير القابلة للتنبؤ حيث قد لا تكون هذه القيود متاحة أو قابلة للتكيف بشكل كافٍ. لسد هذه الفجوة، نقترح نهجًا جديدًا يتعلم بالتزامن سياسة تحكم آمنة ويحدد معلمات قيود السلامة غير المعروفة لبيئة معينة. نبدأ بتحديد سلامة منطق الإشارة البارامترية (pSTL) ومجموعة بيانات مصنفة صغيرة في البداية، ونشكل المشكلة كوظيفة تحسين ذات مستويين، متكاملة بشكل معقد مع تحسين السياسة المقيد، باستخدام نسخة لاغرانجية من خوارزمية gradient policy الحقيقية المتأخرة المزدوجة (TD3)، مع تحسين بايزي لتحسين المعلمات لتحديد سلامة pSTL المعطاة. من خلال التجارب في دراسات الحالة الشاملة، نؤكد فعالية هذا النهج عبر أشكال مختلفة من قيود البيئة، مما يؤدي باستمرار إلى سياسات RL آمنة تعود بعوائد عالية. علاوة على ذلك، تشير نتائجنا إلى التعلم الناجح لمعلمات قيود السلامة STL، مما يظهر درجة عالية من المطابقة مع القيود الحقيقية لسلامة البيئة. إن أداء نموذجنا يعكس عن كثب سيناريو مثالي يمتلك معرفة مسبقة كاملة بقيود السلامة، مما يبرهن على كفاءته في تحديد قيود السلامة البيئية بدقة وتعلم السياسات الآمنة التي تلتزم بتلك القيود.
درس Yifru وآخرون (Sat) هذا السؤال.