Key points are not available for this paper at this time.
Avanços recentes nos controladores de locomoção que utilizam aprendizado profundo por reforço (RL) produziram resultados impressionantes em termos de alcançar uma locomoção rápida e robusta em terrenos desafiadores, como rochas irregulares, solo não rígido e superfícies escorregadias. No entanto, enquanto esses controladores abordam principalmente desafios abaixo do robô, relativamente pouca pesquisa investigou a mobilidade com pernas através de espaços 3D confinados, como túneis estreitos ou vazios irregulares, que impõem restrições em todas as direções. Os padrões de marcha cíclica resultantes dos métodos existentes baseados em RL para aprender habilidades de locomoção parametrizadas, caracterizadas por parâmetros de movimento, como velocidade e altura do corpo, podem não ser adequados para navegar robôs através de desafiantes espaços 3D confinados, que requerem tanto uma evasão ágil de obstáculos em 3D quanto uma locomoção robusta com pernas. Em vez disso, propomos aprender habilidades de locomoção de forma integrada a partir de navegação orientada a objetivos em espaços 3D confinados. Para abordar a ineficiência de rastrear objetivos de navegação distantes, introduzimos um controlador de locomoção hierárquico que combina um planejador clássico encarregado de planejar pontos de referência para alcançar um local de objetivo global distante, e uma política baseada em RL treinada para seguir esses pontos de referência gerando comandos de movimento de baixo nível. Essa abordagem permite que a política explore suas próprias habilidades de locomoção dentro de todo o espaço de solução e facilita transições suaves entre objetivos locais, permitindo a navegação de longo prazo em direção a objetivos distantes. Em simulação, nossa abordagem hierárquica teve sucesso em navegar por ambientes 3D confinados exigentes, superando tanto abordagens puras de aprendizado de ponta a ponta quanto habilidades de locomoção parametrizadas. Demonstramos ainda a implementação bem-sucedida do nosso controlador treinado em simulação em um robô real.
Xu et al. (Quarta-feira,) estudaram esta questão.