February 16, 2024Open Access

نهج تعلم التعزيز الآمن المعتمد على القواعد المدمجة للتحكم في شحن المركبات الكهربائية

Key Points

Key points are not available for this paper at this time.

Abstract

يمكن صياغة التحكم في شحن المركبات الكهربائية الأمثل والآمن كمشكلة عملية قرار ماركوف المقيدة (PO-CMDP) قابلة للملاحظة جزئيًا على نطاق واسع مع مستويات عالية من مخاطر الأمان وعدم اليقين. من الصعب جدًا التعامل مع مثل هذه المشكلة باستخدام طرق قائمة على نظرية الأمثل. تعتبر الأساليب المدفوعة بالبيانات، خاصة تعلم التعزيز (RL)، مناسبة للتعامل مع عدم اليقين ولكنها ضعيفة في ضمان السلامة، وهو أمر غير مقبول في أنظمة الطاقة. مستلهمًا من حقيقة أن البشر يمكن الإشراف عليهم بواسطة خبير عند تعلم مهارة جديدة تنطوي على مخاطر، يقترح هذا البحث إطار RL آمنًا يدمج دروع محلية وعالمية قائمة على القواعد في حلقة RL للإشراف على أفعال الوكلاء. لا يضمن الإطار المقترح الأمان المحلي والعالمي بشكل صارم خلال مراحل التدريب والتنفيذ فحسب، بل يساعد الوكيل أيضًا في العثور على سياسة قريبة من الأمثل. تم إثبات الفعالية والكفاءة من خلال المقارنة مع عدة طرق أساسية في نظام IEEE-33 node.

نهج تعلم التعزيز الآمن المعتمد على القواعد المدمجة للتحكم في شحن المركبات الكهربائية

Key Points

Abstract

Cite This Study