Key points are not available for this paper at this time.
Este estudo revisa os principais desenvolvimentos do Gradiente de Política Determinístico Profundo (DDPG) no campo do aprendizado por reforço. É inovado por ideias de rede Q profunda e pode, finalmente, lidar com alguns problemas muito desafiadores que operam em um espaço de ação contínuo. A ideia principal do DDPG é usar uma arquitetura de ator-crítico (mostrada na Figura 5) para aprender políticas muito mais competitivas. Isso permite que o modelo use aproximadores de função de rede neural para aprender em grandes espaços de estado e ação. Devido à sua forte capacidade, o DDPG tem muitas aplicações úteis para problemas do mundo real no campo, como robótica e sistemas de controle. Mas, como a maioria dos métodos de aprendizado por reforço sem modelo, a exigência de um grande número de passos de treinamento ainda é uma grande dificuldade para o DDPG.
Haining Tan (Sat,) estudou esta questão.