What type of study is this?

This is a Experimental Study study.

October 13, 2025Open Access

LNUCB-TA: Aprendizaje Híbrido Bandit Lineal-no Lineal con Atención Temporal

Puntos clave

LNUCB-TA supera a los algoritmos de bandido existentes en recompensas acumulativas y medias en varias condiciones.
Los resultados empíricos demuestran una mejor convergencia y robustez en comparación con métodos de última generación.
Un nuevo componente no lineal ajusta dinámicamente los parámetros en función de la varianza de recompensa para optimizar el rendimiento.
Los mecanismos de atención permiten adaptaciones en tiempo real de las estrategias de exploración sin ajuste manual.

Resumen

Los algoritmos existentes de bandido multi-brazo contextual (MAB) no logran capturar eficazmente tanto las tendencias a largo plazo como los patrones locales en todos los brazos, lo que conduce a un rendimiento subóptimo en entornos con estructuras de recompensa que cambian rápidamente. También dependen de tasas de exploración estáticas, que no se ajustan dinámicamente a las condiciones cambiantes. Para superar estas limitaciones, proponemos LNUCB-TA, un modelo de bandido híbrido que integra un nuevo componente no lineal (k-vecinos más cercanos adaptativo (k-NN)) para reducir la complejidad temporal, junto con un mecanismo de exploración basado en atención global y local. Nuestro enfoque combina de manera única técnicas de estimación lineales y no lineales, con el módulo no lineal ajustando dinámicamente k en función de la varianza de recompensa para mejorar el reconocimiento de patrones espaciotemporales. Esto reduce la probabilidad de seleccionar brazos subóptimos mientras mejora la precisión de estimación de recompensas y la eficiencia computacional. El mecanismo basado en atención clasifica los brazos según el rendimiento pasado y la frecuencia de selección, ajustando dinámicamente la exploración y la explotación en tiempo real sin requerir ajuste manual de las tasas de exploración. Al integrar atención global (evaluando todos los brazos colectivamente) y atención local (enfocándose en brazos individuales), LNUCB-TA se adapta eficientemente a las complejidades temporales y espaciales. Los resultados empíricos muestran que LNUCB-TA supera significativamente a los mejores bandits lineales, no lineales e híbridos en recompensas acumulativas y medias, convergencia y robustez en diferentes tasas de exploración. El análisis teórico confirma aún más su fiabilidad con un límite de arrepentimiento sublineal.

Leer artículo completoexternamente

Me gusta

Guardar

Ver artículo completo