Key points are not available for this paper at this time.
Desenvolvemos um princípio de aprendizado e um algoritmo eficiente para aprendizado em lotes a partir de feedback de bandidos registrados. Esse ambiente de aprendizado é onipresente em sistemas online (por exemplo, colocação de anúncios, pesquisa na web, rec...)
SwaminathanAdith et al. (qui,) estudaram essa questão.