January 1, 2021Open Access

طريقة توليد استراتيجية القيادة المعتمدة على WGAIL–DDPG

Key Points

Key points are not available for this paper at this time.

Abstract

الموثوقية والكفاءة والعمومية هي معايير تقييم أساسية لنظام القيادة الآلية للسيارات. يقترح هذا البحث طريقة لاتخاذ قرارات القيادة الآلية بناءً على التعلم التنافسي العدائي المولدي وجراد السياسة الحتمي العميق (WGAIL–DDPG(λ)). هنا تم تصميم وظيفة المكافأة المحددة بناءً على متطلبات أداء قيادة السيارة، أي السلامة والأداء الديناميكي وراحة الركوب. تم تحسين كفاءة تدريب النموذج من خلال استراتيجية التعلم المقلد المقترحة، وتم تصميم منظم مكاسب لتسهيل الانتقال من مراحل التقليد إلى التعزيز. تظهر نتائج الاختبار أن نموذج اتخاذ القرار المقترح يمكنه توليد الإجراءات بسرعة ودقة وفقًا للبيئة المحيطة. في الوقت نفسه، يمكن لاستراتيجية التعلم المقلد المعتمدة على تجربة الخبراء ومنظم المكاسب تحسين كفاءة التدريب للنموذج التعزيزي بشكل فعال. بالإضافة إلى ذلك، تثبت اختبار موسع أيضًا قابليته الجيدة للتكيف مع ظروف القيادة المختلفة.

Bookmark

View Full Paper