Los puntos clave no están disponibles para este artículo en este momento.
Con la reciente prevalencia del Aprendizaje por Refuerzo (RL), ha habido un gran interés en utilizar el RL para la publicidad en línea en plataformas de recomendación (por ejemplo, sitios de comercio electrónico y de noticias). Sin embargo, la mayoría de los algoritmos publicitarios basados en RL se centran en optimizar los ingresos publicitarios, ignorando la posible influencia negativa de los anuncios en la experiencia del usuario con los artículos recomendados (productos, artículos y videos). Desarrollar un algoritmo publicitario óptimo en recomendaciones enfrenta enormes desafíos porque la interpolación de anuncios de manera inapropiada o demasiado frecuente puede disminuir la experiencia del usuario, mientras que interpolar menos anuncios reducirá los ingresos publicitarios. Así, en este documento, proponemos una nueva estrategia publicitaria para el equilibrio rec/anuncios. Específicamente, desarrollamos un marco basado en RL que puede actualizar continuamente sus estrategias publicitarias y maximizar la recompensa a largo plazo. Dada una lista de recomendaciones, diseñamos una nueva arquitectura de Red Q Profunda que puede determinar tres tareas internamente relacionadas de manera conjunta, es decir, (i) si interpolar un anuncio o no en la lista de recomendaciones, y si la respuesta es afirmativa, (ii) el anuncio óptimo y (iii) la ubicación óptima para interpolar. Los resultados experimentales basados en datos del mundo real demuestran la efectividad del marco propuesto.
Zhao et al. (Martes,) estudiaron esta cuestión.