March 24, 2024Open Access

Melhoria de Políticas Generalizáveis via Amostragem por Reforço (Resumo do Estudante)

Key Points

Key points are not available for this paper at this time.

Abstract

As técnicas atuais de gradiente de política se destacam em refinar políticas sobre estados amostrados, mas falham ao generalizar para estados não vistos. Para abordar isso, introduzimos a Amostragem por Reforço (RS), um novo método que utiliza uma função de valor de ação generalizável para amostrar decisões aprimoradas. A RS é capaz de melhorar a qualidade da decisão sempre que a estimativa do valor da ação é precisa. Funciona ao melhorar a decisão do agente em tempo real nos estados que o agente está visitando. Comparado com os estados historicamente experienciados nos quais os métodos convencionais de gradiente de política melhoram a política, os estados atualmente visitados são mais relevantes para o agente. Nosso método explora suficientemente a generalização da função de valor em estados não vistos e ilumina o desenvolvimento futuro do aprendizado por reforço generalizável.

Melhoria de Políticas Generalizáveis via Amostragem por Reforço (Resumo do Estudante)

Key Points

Abstract

Cite This Study

Also Consider

Also Consider