Key points are not available for this paper at this time.
أظهر التعلم المعزز (RL) وعدًا كبيرًا في تحسين اهتمام المستخدم طويل الأمد في أنظمة التوصية. ومع ذلك، تتطلب طرق التوصية القائمة على RL الحالية عددًا كبيرًا من التفاعلات لكل مستخدم لتعلم سياسة التوصية. تصبح هذه المشكلة أكثر حدة عند التوصية للمستخدمين الجدد الذين لديهم عدد محدود من التفاعلات. لذلك، في هذه المقالة، نعالج تحدي البداية الباردة في أنظمة التوصية القائمة على RL من خلال اقتراح نهج جديد قائم على نموذج ميتا-مستوى بدون اتصال وواعي للسياق لتكيف المستخدم. يتعلم نهجنا المقترح استنتاج تفضيل كل مستخدم باستخدام متغير سياق المستخدم الذي يمكّن أنظمة التوصية من التكيف بشكل أفضل مع المستخدمين الجدد الذين لديهم معلومات سياقية محدودة. لتحسين كفاءة التكيف، يتعلم نهجنا استعادة دالة اختيار المستخدم والمكافأة من معلومات سياقية محدودة عبر طريقة تعلم معزز عكسي، والتي تُستخدم لمساعدة تدريب وكيل توصية ميتا-مستوى. لتجنب الحاجة إلى التفاعل عبر الإنترنت، يُدرّب الأسلوب المقترح باستخدام بيانات تم جمعها تاريخيًا وبدون اتصال. علاوة على ذلك، لمواجهة تحدي تدريب السياسات بدون اتصال، نقدم قيد معلومات متبادلة بين نموذج المستخدم ووكيل التوصية. تظهر نتائج التقييم تفوق طريقة تعلم السياسات بدون الاتصال التي طورناها عند التكيف مع مستخدمين جدد لديهم معلومات سياقية محدودة. بالإضافة إلى ذلك، نقدم تحليلًا نظريًا لحد أداء التوصية.
درس وانغ وآخرون (الخميس،) هذا السؤال.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: