Key points are not available for this paper at this time.
Neste artigo, estamos interessados no paradigma de baixa para cima de estimar poses humanas a partir de uma imagem. Estudamos a estrutura de regressão densa de pontos-chave que é anteriormente inferior à detecção e agrupamento de pontos-chave. Nossa motivação é que regredir posições de pontos-chave com precisão precisa aprender representações que se concentram nas regiões dos pontos-chave. Apresentamos uma abordagem simples, mas eficaz, chamada regressão de pontos-chave desentrelaçada (DEKR). Adotamos convoluções adaptativas através de transformadores espaciais pixel a pixel para ativar os pixels nas regiões dos pontos-chave e, consequentemente, aprender representações a partir deles. Usamos uma estrutura de múltiplos ramos para regressão separada: cada ramo aprende uma representação com convoluções adaptativas dedicadas e regressa um ponto-chave. As representações desentrelaçadas resultantes são capazes de atender às regiões dos pontos-chave, respectivamente, e assim a regressão de pontos-chave é espacialmente mais precisa. Mostramos empiricamente que o método de regressão direta proposto supera os métodos de detecção e agrupamento de pontos-chave e alcança resultados superiores de estimativa de pose de baixa para cima em dois conjuntos de dados de referência, COCO e CrowdPose. O código e os modelos estão disponíveis em https://github.com/HRNet/DEKR.
Geng et al. (Ter,) estudaram essa questão.