Key points are not available for this paper at this time.
Em algoritmos de aprendizado por reforço baseados em ator-crítico, como o Twin Delayed Deep Deterministic policy gradient (TD3), a exploração insuficiente do espaço espacial pode resultar em políticas subótimas ao controlar braços robóticos de 7-DOF. Para abordar essa questão, propomos um novo módulo de Aprendizado Contrastivo Aprimorado por Exploração (EECL) que melhora a exploração ao fornecer recompensas adicionais por encontrar estados novos. Nosso módulo armazena estados previamente explorados em um buffer e identifica novos estados comparando-os com dados históricos usando distância euclidiana dentro de um framework de árvore K-dimensional (KDTree). Quando o agente explora novos estados, recompensas de exploração são atribuídas. Essas recompensas são então integradas ao algoritmo TD3, garantindo que o processo de Q-learning incorpore esses sinais, promovendo uma otimização de estratégia mais eficaz. Avaliamos nosso método na tarefa de levantamento do robô panda do robosuite, demonstrando que ele supera significativamente a linha de base do TD3 em termos de eficiência e velocidade de convergência no ambiente testado.
Hsieh et al. (Mon,) estudaram essa questão.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: