Key points are not available for this paper at this time.
À medida que os robôs entram nos ambientes de trabalho humanos, há uma necessidade crucial de que os robôs entendam e prevejam o movimento humano para alcançar uma colaboração humano-robô (HRC) segura e fluente. No entanto, a predição precisa é desafiadora devido à falta de conjuntos de dados em larga escala para HRC em proximidade e à ausência de algoritmos generalizáveis. Para superar esses desafios, apresentamos o INTERACT, um conjunto de dados multimodal abrangente cobrindo dados de esqueleto 3-D, RGB+D, olhar e articulações do robô para colaboração humano-humano e humano-robô. Além disso, introduzimos o PoseTron, uma nova arquitetura baseada em transformer para abordar a lacuna nos algoritmos de aprendizado. O PoseTron introduz um mecanismo de atenção condicional no codificador, permitindo a ponderação eficiente das informações de movimento de todos os agentes para incorporar a dinâmica da equipe. O decodificador apresenta um novo mecanismo de atenção multimodal, que pondera representações de diferentes modalidades e as saídas do codificador para prever o movimento futuro. Avaliamos extensivamente o PoseTron comparando seu desempenho no conjunto de dados INTERACT com algoritmos de última geração. Os resultados sugerem que o PoseTron superou todos os outros métodos em todos os cenários, obtendo os menores erros de predição. Além disso, realizamos um estudo de ablação abrangente, enfatizando a importância das escolhas de design, apontando para uma direção promissora para integrar a predição de movimento com a percepção robótica em HRC segura e eficaz.
Yasar et al. (Sun,) estudaram essa questão.