Key points are not available for this paper at this time.
أظهرت طرق التحكم المعتمدة على التعلم بدون نموذج مؤخرًا مزايا كبيرة على الطرق التقليدية في تجنب تقدير خصائص المركبات المعقدة وتهيئة المعلمات. كطريقة أساسية تعلم السياسة، فإن تعلم التقليد (IL) قادر على تعلم سياسات التحكم مباشرة من العروض المقدمة من الخبراء. ومع ذلك، فإن أداء سياسات IL يعتمد بشكل كبير على كفاية وجودة البيانات المقدمة. للتخفيف من هذه المشكلات المتعلقة بسياسات IL، يُقترح في هذه الورقة إطار تعلم السياسة مدى الحياة (LLPL)، والذي يوسع خطة IL مع التعلم مدى الحياة (LLL). أولاً، يتم تقديم طريقة جديدة لتعلم سياسة التحكم بدون نموذج تعتمد على IL لتتبع المسار. حتى مع العروض غير المثالية، يمكن تعلم سياسة التحكم المثلى مباشرة من بيانات القيادة التاريخية. ثانيًا، باستخدام طريقة LLL، يمكن تحديث سياسة IL المدربة مسبقًا بشكل آمن وتنقيحها باستخدام المعرفة المكتسبة بشكل تدريجي. ثالثًا، يتم تقديم طريقة تقييم المعرفة لتعلم السياسة لتجنب تعلم المعرفة الزائدة أو inferior knowledge، وبالتالي ضمان تحسين أداء تعلم السياسة عبر الإنترنت. تم إجراء تجارب باستخدام نموذج ديناميكي للمركبات عالي الدقة في سيناريوهات مختلفة لتقييم أداء الطريقة المقترحة. تظهر النتائج أن إطار LLPL المقترح يمكنه تحسين أداء السياسة باستمرار مع البيانات المتزايدة التي تم جمعها من القيادة، ويحقق أفضل دقة وسلاسة في التحكم مقارنة بالطرق الأساسية الأخرى بعد التطور على طريق منحني بطول 7 كم. من خلال التعلم والتقييم باستخدام بيانات حقيقية صاخبة تم جمعها في بيئة غير ممهدة، يظهر إطار LLPL المقترح أيضًا قابلية تطبيقه في التعلم والتطور في السيناريوهات الواقعية.
درس غونغ وآخرون (مون،) هذه المسألة.