Key points are not available for this paper at this time.
تلعب أنظمة التوصية دورًا حيويًا في التخفيف من مشكلة فرط المعلومات من خلال اقتراح العناصر أو الخدمات المخصصة للمستخدمين. الغالبية العظمى من أنظمة التوصية التقليدية تعتبر عملية التوصية كعملية ثابتة وتتبع استراتيجية محددة. في هذه الدراسة، نقترح نظام توصية جديد قادر على تحسين استراتيجياته باستمرار أثناء التفاعل مع المستخدمين. نقوم بنمذجة التفاعلات المتسلسلة بين المستخدمين ونظام التوصية كعملية اتخاذ قرار ماركوف (MDP) ونستخدم التعلم المعزز (RL) لتعلم الاستراتيجيات المثلى تلقائيًا من خلال تجربة توصية عناصر بالتجربة والخطأ وتلقي التعزيزات لهذه العناصر من تعليقات المستخدمين. يمكن أن تكون تعليقات المستخدمين إيجابية وسلبية، وكلا النوعين لهما إمكانيات عظيمة لتعزيز التوصيات. مع ذلك، عدد ردود الفعل السلبية أكبر بكثير من الإيجابية؛ لذلك دمجهما معًا يمثل تحديًا، حيث قد تُطمر التعليقات الإيجابية بالسلبية. في هذا البحث، نطور نهجًا جديدًا لدمجهما في إطار نظام التوصية العميق المقترح (DEERS). تظهر النتائج التجريبية المستندة إلى بيانات التجارة الإلكترونية الواقعية فعالية الإطار المقترح. وتم إجراء تجارب إضافية لفهم أهمية كل من الردود الإيجابية والسلبية في التوصيات.
درس Zhao وآخرون (Thu,) هذا السؤال.