April 25, 2024Open Access

M 3 Rec: نهج تعلم معزز قائم على نموذج ميتا-مستوى بدون اتصال وواعي للسياق لتوصيات البداية الباردة

Key Points

Key points are not available for this paper at this time.

Abstract

أظهر التعلم المعزز (RL) وعدًا كبيرًا في تحسين اهتمام المستخدم طويل الأمد في أنظمة التوصية. ومع ذلك، تتطلب طرق التوصية القائمة على RL الحالية عددًا كبيرًا من التفاعلات لكل مستخدم لتعلم سياسة التوصية. تصبح هذه المشكلة أكثر حدة عند التوصية للمستخدمين الجدد الذين لديهم عدد محدود من التفاعلات. لذلك، في هذه المقالة، نعالج تحدي البداية الباردة في أنظمة التوصية القائمة على RL من خلال اقتراح نهج جديد قائم على نموذج ميتا-مستوى بدون اتصال وواعي للسياق لتكيف المستخدم. يتعلم نهجنا المقترح استنتاج تفضيل كل مستخدم باستخدام متغير سياق المستخدم الذي يمكّن أنظمة التوصية من التكيف بشكل أفضل مع المستخدمين الجدد الذين لديهم معلومات سياقية محدودة. لتحسين كفاءة التكيف، يتعلم نهجنا استعادة دالة اختيار المستخدم والمكافأة من معلومات سياقية محدودة عبر طريقة تعلم معزز عكسي، والتي تُستخدم لمساعدة تدريب وكيل توصية ميتا-مستوى. لتجنب الحاجة إلى التفاعل عبر الإنترنت، يُدرّب الأسلوب المقترح باستخدام بيانات تم جمعها تاريخيًا وبدون اتصال. علاوة على ذلك، لمواجهة تحدي تدريب السياسات بدون اتصال، نقدم قيد معلومات متبادلة بين نموذج المستخدم ووكيل التوصية. تظهر نتائج التقييم تفوق طريقة تعلم السياسات بدون الاتصال التي طورناها عند التكيف مع مستخدمين جدد لديهم معلومات سياقية محدودة. بالإضافة إلى ذلك، نقدم تحليلًا نظريًا لحد أداء التوصية.

Read Full Paperexternally

اسأل الذكاء الاصطناعي

Bookmark

View Full Paper