Aprendizado em lotes a partir de feedback de bandidos registrados por meio da minimização de risco contrafactual

Key Points

Key points are not available for this paper at this time.

Abstract

Desenvolvemos um princípio de aprendizado e um algoritmo eficiente para aprendizado em lotes a partir de feedback de bandidos registrados. Esse ambiente de aprendizado é onipresente em sistemas online (por exemplo, colocação de anúncios, pesquisa na web, rec...)

Bookmark

Cite This Study

SwaminathanAdith et al. (qui,) estudaram essa questão.

synapsesocial.com/papers/6a1bc17700ee29383e9cd429 https://doi.org/https://doi.org/10.5555/2789272.2886805