Key points are not available for this paper at this time.
3차원 인간 자세 추정은 2D 비디오에서 3D 자세 시퀀스를 생성하는 데 초점을 맞춥니다. 이는 인간-로봇 상호작용, 원격 감지, 가상 현실 및 컴퓨터 비전 분야에서 큰 잠재력을 가지고 있습니다. 기존의 뛰어난 방법들은 주로 3D 자세 추정을 달성하기 위해 공간적 또는 시간적 인코딩을 탐색하는 데 집중하고 있습니다. 그러나 다양한 아키텍처는 3D 자세 추정에 대한 공간적 및 시간적 단서의 독립적인 영향을 활용하면서 공간-시간의 상승적 영향을 간과하고 있습니다. 이 문제를 해결하기 위해, 본 논문은 이중 적응형 공간-시간 형식기(DASTFormer)를 갖춘 새로운 3D 자세 추정 방법을 제안하며, 추가적인 지도 학습을 포함합니다. DASTFormer는 공간-시간 효과를 적응적으로 학습하여 2D에서 3D로의 자세 추정을 강화할 수 있는 주의-적응형(AtA) 및 순수-적응형(PuA) 모드를 포함합니다. 또한, 이 작업에서는 배치 분산 손실을 통한 추가적인 지도 학습이 제안됩니다. 일반적인 학습 전략과는 달리, 동일한 배치 데이터에 대해 두 번의 매개변수 업데이트가 수행됩니다. 이는 공간-시간 인코딩과 3D 자세 간의 잠재적 관계를 더 잘 탐색할 수 있을 뿐만 아니라, 변환기 기반 프레임워크에 대한 그래픽 카드의 배치 크기 제한을 완화할 수 있습니다. 광범위한 실험 결과에 따르면 제안된 방법이 Human3.6 및 HumanEVA 데이터셋에서 대부분의 최첨단 접근 방식을 유의미하게 능가하는 것으로 나타났습니다.
Wang et al. (Mon,)는 이 문제를 연구했습니다.