Key points are not available for this paper at this time.
As técnicas atuais de gradiente de política se destacam em refinar políticas sobre estados amostrados, mas falham ao generalizar para estados não vistos. Para abordar isso, introduzimos a Amostragem por Reforço (RS), um novo método que utiliza uma função de valor de ação generalizável para amostrar decisões aprimoradas. A RS é capaz de melhorar a qualidade da decisão sempre que a estimativa do valor da ação é precisa. Funciona ao melhorar a decisão do agente em tempo real nos estados que o agente está visitando. Comparado com os estados historicamente experienciados nos quais os métodos convencionais de gradiente de política melhoram a política, os estados atualmente visitados são mais relevantes para o agente. Nosso método explora suficientemente a generalização da função de valor em estados não vistos e ilumina o desenvolvimento futuro do aprendizado por reforço generalizável.
Kong et al. (Sun,) estudaram essa questão.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: