Key points are not available for this paper at this time.
يؤثر الخلط السببي، المتمثل في تعلم الارتباطات الزائفة، بشكل سلبي على التعميم وفعالية خوارزميات التعلم المعزز، خاصة في البيئات التي تفتقر إلى المتغيرات المخفية التي غالبًا ما تواجه في مهام تنقل الروبوتات المستقلة. تعالج هذه الدراسة هذه الفجوة من خلال تطوير هيكل سببي ضمن عملية اتخاذ القرار ماركوف القابلة للمراقبة جزئيًا (POMDP). بعد ذلك، نقدم تدخلًا مستهدفًا يخفف من تأثير الارتباطات الزائفة عن طريق عزل المتغيرات الحالة المهمة سببيًا والتخلص من المدخلات غير ذات الصلة. تؤكد الاختبارات في ثلاث سيناريوهات من العالم الحقيقي جدوى النهج وتفوقه في تحسين أداء خوارزميات التعلم المعزز وقدرتها على التعميم، مما يمثل خطوة واعدة نحو أطر تعلم معزز على الإنترنت أكثر قوة.
درس شين وآخرون (مون،) هذا السؤال.