Este artigo apresenta uma nova estrutura que permite que robôs humanoides do mundo real mantenham estabilidade enquanto realizam movimentos semelhantes aos humanos. Métodos atuais treinam uma política que permite que robôs humanoides sigam o corpo humano usando dados humanos massivamente retargeted por meio de aprendizado por reforço. No entanto, devido à heterogeneidade entre o movimento humano e o movimento do robô humanoide, o uso direto do movimento humano retargeted reduz a eficiência e a estabilidade do treinamento. Para isso, introduzimos o SMAP, uma nova estrutura de rastreamento de corpo inteiro que é um elo entre os espaços de ação humana e humanoide, permitindo a imitação precisa de movimento por robôs humanoides. A ideia central é usar um autoencodeador periódico quantizado em vetor para capturar comportamentos atômicos genéricos e adaptar o movimento humano em movimento humanoide fisicamente plausível. Essa adaptação acelera a convergência do treinamento e melhora a estabilidade ao lidar com movimentos novos ou desafiadores. Em seguida, empregamos um professor privilegiado para destilar habilidades de imitação precisas na política do aluno com uma recompensa desacoplada proposta. Conduzimos experimentos em simulação e no mundo real para demonstrar a superioridade da estabilidade e desempenho do SMAP em relação aos métodos SOTA, oferecendo diretrizes práticas para o avanço do controle de corpo inteiro em robôs humanoides.
Zhao et al. (Sun,) estudaram esta questão.