June 30, 2024Open Access

التعامل مع المهام طويلة الأفق بالتعلم التعزيزي غير المتصل المعتمد على النماذج

Key Points

Key points are not available for this paper at this time.

Abstract

التعلم التعزيزي غير المتصل المعتمد على النماذج هو نهج جذاب يعالج تحدي التعلم من بيانات محدودة وثابتة عن طريق توليد مسارات تخيلية باستخدام نماذج مكتسبة. ومع ذلك، فإنه يعاني من قصور في حل المهام طويلة الأفق بسبب التحيز العالي في تقدير القيمة من خلال تمثيلات النماذج. في هذا البحث، نقدم طريقة جديدة للتعلم التعزيزي غير المتصل المعتمد على النماذج، وهي تعلم Q بانخفاض الامتداد (Lower Expectile Q-learning - LEQ)، التي تعزز أداء المهام طويلة الأفق عبر تقليل التحيز العالي في تقدير القيمة المعتمد على النماذج من خلال الانحدار الامتدادي للعائدات - . تظهر نتائجنا التجريبية أن LEQ يتفوق بشكل ملحوظ على الطرق السابقة في التعلم التعزيزي غير المتصل المعتمد على النماذج في المهام طويلة الأفق، مثل مهام D4RL AntMaze، متساويًا أو متفوقًا على أداء الطرق غير المعتمدة على النماذج. توضح تجاربنا أن الانحدار الامتدادي، والعائدات - ، وتدريب الناقد على البيانات غير المتصلة كلها عوامل حاسمة لمعالجة المهام طويلة الأفق. بالإضافة إلى ذلك، يحقق LEQ أداءً مشابهًا لأحدث طرق التعلم التعزيزي غير المتصل المعتمدة والغير معتمدة على النماذج في معيار NeoRL ومهام D4RL MuJoCo Gym.

التعامل مع المهام طويلة الأفق بالتعلم التعزيزي غير المتصل المعتمد على النماذج

Key Points

Abstract

Cite This Study