May 1, 2021

Aprendizado por Reforço com Gradiente de Política Determinístico Profundo

Key Points

Key points are not available for this paper at this time.

Abstract

Este estudo revisa os principais desenvolvimentos do Gradiente de Política Determinístico Profundo (DDPG) no campo do aprendizado por reforço. É inovado por ideias de rede Q profunda e pode, finalmente, lidar com alguns problemas muito desafiadores que operam em um espaço de ação contínuo. A ideia principal do DDPG é usar uma arquitetura de ator-crítico (mostrada na Figura 5) para aprender políticas muito mais competitivas. Isso permite que o modelo use aproximadores de função de rede neural para aprender em grandes espaços de estado e ação. Devido à sua forte capacidade, o DDPG tem muitas aplicações úteis para problemas do mundo real no campo, como robótica e sistemas de controle. Mas, como a maioria dos métodos de aprendizado por reforço sem modelo, a exigência de um grande número de passos de treinamento ainda é uma grande dificuldade para o DDPG.

Bookmark

Aprendizado por Reforço com Gradiente de Política Determinístico Profundo

Key Points

Abstract

Cite This Study