May 19, 2024Open Access

تعلم تمثيل المستقبل مع الملاحظات الاصطناعية من أجل تعلم التعزيز الفعال من حيث العينات

Key Points

Key points are not available for this paper at this time.

Abstract

في تعلم التعزيز البصري، يحدد تعلم التمثيل في المرحلة العليا إلى حد كبير تأثير تعلم السياسات في المرحلة السفلى. يتيح استخدام المهام المساعدة للوكيل تعزيز التمثيل البصري بطريقة مستهدفة، مما يحسن كفاءة العينة وأداء تعلم التعزيز في المرحلة السفلى. جميع المهام المساعدة المتقدمة السابقة تركز على كيفية استخراج أكبر قدر ممكن من المعلومات من التجارب المحدودة (بما في ذلك الملاحظات، والإجراءات، والمكافآت) من خلال أهدافها المساعدة المختلفة، بينما في هذه المقالة، نبدأ من منظور آخر: بيانات التدريب المساعدة. نحن نحاول تحسين تعلم التمثيل المساعد لتعلم التعزيز عن طريق إثراء بيانات التدريب المساعدة، واقتراح تعلم تمثيل المستقبل مع الملاحظات الاصطناعية (LFS) كنهج جديد للتعلم المعزز الذاتي. على وجه التحديد، نقترح طريقة خالية من التدريب لتوليد ملاحظات قد تحتوي على معلومات مستقبلية، بالإضافة إلى نهج لاختيار البيانات للقضاء على الضوضاء الاصطناعية غير المؤهلة. بعد ذلك، تُستخدم الملاحظات الاصطناعية المتبقية والملاحظات الحقيقية كبيانات مساعدة لتحقيق مهمة الربط الزمني القائمة على العنقود لتعلم التمثيل. يتيح LFS للوكيل الوصول إلى الملاحظات وتعلمها التي لم تظهر بعد مسبقًا، من أجل فهمها واستغلالها بسرعة عندما تحدث لاحقًا. بالإضافة إلى ذلك، لا يعتمد LFS على المكافآت أو الإجراءات، مما يعني أن له نطاق تطبيق أوسع (مثل التعلم من الفيديو) مقارنة بالمهام المساعدة المتقدمة الأخيرة. تظهر التجارب المكثفة أن LFS لدينا يظهر كفاءة عينة تعلم تعزيز متقدمة على التحكم المستمر التحدي ويتيح التحضير المرئي المتقدم استنادًا إلى عروض الفيديو خالية من الإجراءات.

Read Full Paperexternally

اسأل الذكاء الاصطناعي

Bookmark

View Full Paper