Los algoritmos existentes de bandido multi-brazo contextual (MAB) no logran capturar eficazmente tanto las tendencias a largo plazo como los patrones locales en todos los brazos, lo que conduce a un rendimiento subóptimo en entornos con estructuras de recompensa que cambian rápidamente. También dependen de tasas de exploración estáticas, que no se ajustan dinámicamente a las condiciones cambiantes. Para superar estas limitaciones, proponemos LNUCB-TA, un modelo de bandido híbrido que integra un nuevo componente no lineal (k-vecinos más cercanos adaptativo (k-NN)) para reducir la complejidad temporal, junto con un mecanismo de exploración basado en atención global y local. Nuestro enfoque combina de manera única técnicas de estimación lineales y no lineales, con el módulo no lineal ajustando dinámicamente k en función de la varianza de recompensa para mejorar el reconocimiento de patrones espaciotemporales. Esto reduce la probabilidad de seleccionar brazos subóptimos mientras mejora la precisión de estimación de recompensas y la eficiencia computacional. El mecanismo basado en atención clasifica los brazos según el rendimiento pasado y la frecuencia de selección, ajustando dinámicamente la exploración y la explotación en tiempo real sin requerir ajuste manual de las tasas de exploración. Al integrar atención global (evaluando todos los brazos colectivamente) y atención local (enfocándose en brazos individuales), LNUCB-TA se adapta eficientemente a las complejidades temporales y espaciales. Los resultados empíricos muestran que LNUCB-TA supera significativamente a los mejores bandits lineales, no lineales e híbridos en recompensas acumulativas y medias, convergencia y robustez en diferentes tasas de exploración. El análisis teórico confirma aún más su fiabilidad con un límite de arrepentimiento sublineal.
Khosravi et al. (Sat,) estudiaron esta cuestión.