Key points are not available for this paper at this time.
التعلم التعزيزي غير المتصل المعتمد على النماذج هو نهج جذاب يعالج تحدي التعلم من بيانات محدودة وثابتة عن طريق توليد مسارات تخيلية باستخدام نماذج مكتسبة. ومع ذلك، فإنه يعاني من قصور في حل المهام طويلة الأفق بسبب التحيز العالي في تقدير القيمة من خلال تمثيلات النماذج. في هذا البحث، نقدم طريقة جديدة للتعلم التعزيزي غير المتصل المعتمد على النماذج، وهي تعلم Q بانخفاض الامتداد (Lower Expectile Q-learning - LEQ)، التي تعزز أداء المهام طويلة الأفق عبر تقليل التحيز العالي في تقدير القيمة المعتمد على النماذج من خلال الانحدار الامتدادي للعائدات - . تظهر نتائجنا التجريبية أن LEQ يتفوق بشكل ملحوظ على الطرق السابقة في التعلم التعزيزي غير المتصل المعتمد على النماذج في المهام طويلة الأفق، مثل مهام D4RL AntMaze، متساويًا أو متفوقًا على أداء الطرق غير المعتمدة على النماذج. توضح تجاربنا أن الانحدار الامتدادي، والعائدات - ، وتدريب الناقد على البيانات غير المتصلة كلها عوامل حاسمة لمعالجة المهام طويلة الأفق. بالإضافة إلى ذلك، يحقق LEQ أداءً مشابهًا لأحدث طرق التعلم التعزيزي غير المتصل المعتمدة والغير معتمدة على النماذج في معيار NeoRL ومهام D4RL MuJoCo Gym.
درس بارك وزملاؤه (سون) هذا السؤال.