Key points are not available for this paper at this time.
Estimar poses humanas a partir de vídeos é crítico na interação humano-computador. As articulações cooperam em vez de se mover independentes durante o movimento humano. Existem correlações espaciais e temporais entre as articulações. Apesar dos resultados positivos de abordagens anteriores, a maioria foca na modelagem da correlação espacial entre as articulações enquanto apenas integra de forma direta as características ao longo da dimensão temporal, ignorando a correlação temporal entre as articulações. Neste trabalho, propomos um módulo de modelagem cinemática plug-and-play (KMM) para modelar explicitamente as correlações temporais entre as articulações em diferentes quadros, calculando sua similaridade temporal. Dessa forma, o KMM pode capturar sinais de movimento da articulação atual em relação a todas as articulações em diferentes momentos. Além disso, formulamos a estimativa de pose humana baseada em vídeo como um Processo de Decisão de Markov e projetamos uma nova rede de modelagem cinemática (KIMNet) para simular a Cadeia de Markov, permitindo que o KIMNet localize as articulações recursivamente. Nossa abordagem alcança resultados de ponta em dois benchmarks desafiadores. Em particular, o KIMNet demonstra robustez em relação à oclusão. O código será liberado em https://github.com/YHDang/KIMNet.
Dang et al. (Sex,) estudiaram esta questão.