Los puntos clave no están disponibles para este artículo en este momento.
Los bandidos duelistas contextuales, donde un aprendiz compara dos opciones basadas en el contexto y recibe retroalimentación que indica cuál fue preferida, extienden los bandidos duelistas clásicos al incorporar información contextual para la toma de decisiones y el aprendizaje de preferencias. Se han propuesto varios algoritmos basados en el límite superior de confianza (UCB) para bandidos duelistas contextuales lineales. Sin embargo, no se ha desarrollado ningún algoritmo basado en muestreo posterior en este contexto, a pesar del éxito empírico observado en los bandidos contextuales tradicionales. En este documento, proponemos un algoritmo de muestreo de Thompson, denominado FGTS. CDB, para bandidos duelistas contextuales lineales. En el núcleo de nuestro algoritmo hay un nuevo término de exploración Feel-Good específicamente diseñado para bandidos duelistas. Este término aprovecha la independencia de los dos brazos seleccionados, evitando así un término cruzado en el análisis. Mostramos que nuestro algoritmo logra un arrepentimiento casi minimax-óptimo, es decir, O (d T), donde d es la dimensión del modelo y T es el horizonte temporal. Finalmente, evaluamos nuestro algoritmo en datos sintéticos y observamos que FGTS. CDB supera a los algoritmos existentes por un amplio margen.
Li et al. (Tue,) estudiaron esta cuestión.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: