March 18, 2024Open Access

تعزيز التعلم المعزز من خلال تحديد المدخلات ذات الصلة السببية والتدخل المستهدف

Key Points

Key points are not available for this paper at this time.

Abstract

يؤثر الخلط السببي، المتمثل في تعلم الارتباطات الزائفة، بشكل سلبي على التعميم وفعالية خوارزميات التعلم المعزز، خاصة في البيئات التي تفتقر إلى المتغيرات المخفية التي غالبًا ما تواجه في مهام تنقل الروبوتات المستقلة. تعالج هذه الدراسة هذه الفجوة من خلال تطوير هيكل سببي ضمن عملية اتخاذ القرار ماركوف القابلة للمراقبة جزئيًا (POMDP). بعد ذلك، نقدم تدخلًا مستهدفًا يخفف من تأثير الارتباطات الزائفة عن طريق عزل المتغيرات الحالة المهمة سببيًا والتخلص من المدخلات غير ذات الصلة. تؤكد الاختبارات في ثلاث سيناريوهات من العالم الحقيقي جدوى النهج وتفوقه في تحسين أداء خوارزميات التعلم المعزز وقدرتها على التعميم، مما يمثل خطوة واعدة نحو أطر تعلم معزز على الإنترنت أكثر قوة.

Read Full Paperexternally

اسأل الذكاء الاصطناعي

Bookmark

View Full Paper