Key points are not available for this paper at this time.
يمكن صياغة التحكم في شحن المركبات الكهربائية الأمثل والآمن كمشكلة عملية قرار ماركوف المقيدة (PO-CMDP) قابلة للملاحظة جزئيًا على نطاق واسع مع مستويات عالية من مخاطر الأمان وعدم اليقين. من الصعب جدًا التعامل مع مثل هذه المشكلة باستخدام طرق قائمة على نظرية الأمثل. تعتبر الأساليب المدفوعة بالبيانات، خاصة تعلم التعزيز (RL)، مناسبة للتعامل مع عدم اليقين ولكنها ضعيفة في ضمان السلامة، وهو أمر غير مقبول في أنظمة الطاقة. مستلهمًا من حقيقة أن البشر يمكن الإشراف عليهم بواسطة خبير عند تعلم مهارة جديدة تنطوي على مخاطر، يقترح هذا البحث إطار RL آمنًا يدمج دروع محلية وعالمية قائمة على القواعد في حلقة RL للإشراف على أفعال الوكلاء. لا يضمن الإطار المقترح الأمان المحلي والعالمي بشكل صارم خلال مراحل التدريب والتنفيذ فحسب، بل يساعد الوكيل أيضًا في العثور على سياسة قريبة من الأمثل. تم إثبات الفعالية والكفاءة من خلال المقارنة مع عدة طرق أساسية في نظام IEEE-33 node.
درس جوان وآخرون (جمعة) هذا السؤال.