August 26, 2024Open Access

Otimização do TD3 para Grasping de Braços Robóticos de 7-DOF: Superando Suboptimalidade com Aprendizado Contrastivo Aprimorado por Exploração

Key Points

Key points are not available for this paper at this time.

Abstract

Em algoritmos de aprendizado por reforço baseados em ator-crítico, como o Twin Delayed Deep Deterministic policy gradient (TD3), a exploração insuficiente do espaço espacial pode resultar em políticas subótimas ao controlar braços robóticos de 7-DOF. Para abordar essa questão, propomos um novo módulo de Aprendizado Contrastivo Aprimorado por Exploração (EECL) que melhora a exploração ao fornecer recompensas adicionais por encontrar estados novos. Nosso módulo armazena estados previamente explorados em um buffer e identifica novos estados comparando-os com dados históricos usando distância euclidiana dentro de um framework de árvore K-dimensional (KDTree). Quando o agente explora novos estados, recompensas de exploração são atribuídas. Essas recompensas são então integradas ao algoritmo TD3, garantindo que o processo de Q-learning incorpore esses sinais, promovendo uma otimização de estratégia mais eficaz. Avaliamos nosso método na tarefa de levantamento do robô panda do robosuite, demonstrando que ele supera significativamente a linha de base do TD3 em termos de eficiência e velocidade de convergência no ambiente testado.

Read Full Paperexternally

Perguntar à IA

Bookmark

View Full Paper