Key points are not available for this paper at this time.
يتطلب السوق الديناميكي في الإعلانات عبر الإنترنت أنظمة تصنيف مُحسّنة لتعزيز وتحقيق قيمة الإعلانات ذات الأداء الأفضل بشكل مستمر. الطبيعة المتدفقة للبيانات عبر الإنترنت تجعل النظام الإعلاني بالضرورة يختار بين تعظيم الإيرادات المتوقعة وفقًا لمعرفته الحالية على المدى القصير (الاستغلال) ومحاولة معرفة المزيد عن المجهول لتحسين معرفته (الاستكشاف)، حيث قد يزيد الأخير من إيراداته في المستقبل. لقد تم دراسة توازن الاستغلال والاستكشاف (EE) بشكل مكثف في مجتمع التعلم المعزز، ومع ذلك، لم يُعطَ الكثير من الاهتمام في الإعلانات عبر الإنترنت حتى مؤخرًا. في هذه الورقة، نطور استراتيجيتين جديدتين من EE للإعلانات عبر الإنترنت. تحديدًا، يمكن لأساليبنا التوازن بشكل تكيفي بين الجانبين EE عن طريق التعلم تلقائيًا لأفضل توازن ودمج مقاييس الثقة في الأداء التاريخي. ضمن إطار محاكاة مصمم بعناية، نطبق خوارزمياتنا على نظام إعلانات سياقية قائم على الأداء رائد في الصناعة ونقوم بإجراء تقييمات شاملة باستخدام بيانات سجلات الأحداث الحقيقية عبر الإنترنت. تكشف النتائج التجريبية والتحليل التفصيلي عن عدة نتائج مهمة لسلوكيات EE في الإعلانات عبر الإنترنت وتوضح أن خوارزمياتنا تؤدي أداءً متفوقًا من حيث الوصول إلى الإعلان ومعدل النقر عبر الشبكة (CTR).
درس لي وآخرون (سون) هذا السؤال.