Key points are not available for this paper at this time.
이 논문은 단일 컬러 이미지에서 3D 인간 자세 추정의 도전에 대해 다룹니다. 엔드 투 엔드 학습 패러다임이 일반적으로 성공적인 것에도 불구하고, 상위 성능 방법들은 2D 관절 위치 지정을 위한 컨볼루션 네트워크(ConvNet)와 3D 자세를 복구하기 위한 후속 최적화 단계로 구성된 두 단계 해결책을 사용합니다. 본 논문에서는 3D 자세의 표현이 현재 ConvNet 접근 방식의 중요한 문제임을 확인하고, 이 작업을 위한 엔드 투 엔드 학습의 가치를 검증하기 위한 두 가지 중요한 기여를 합니다. 첫째, 우리는 피사체 주변의 3D 공간을 세밀하게 분할하고 각 관절에 대한 복셀 당 가능성을 예측하기 위해 ConvNet을 훈련시키는 것을 제안합니다. 이는 3D 자세에 대한 자연스러운 표현을 생성하고 관절 좌표의 직접 회귀에 비해 성능을 크게 향상시킵니다. 둘째, 초기 추정을 더 개선하기 위해 우리는 거친-정밀 예측 방식을 사용합니다. 이 단계는 큰 차원 증가를 처리하고 이미지 특징의 반복적 개선 및 재처리를 가능하게 합니다. 제안된 접근 방식은 표준 벤치마크에서 모든 최첨단 방법보다 뛰어난 성능을 보이며 평균적으로 30% 이상의 상대 오류 감소를 달성합니다. 추가로, 우리는 3D 실제 값에 해당하는 이미지가 없을 때 훈련을 가능하게 하고, 실제 환경 이미지에 대한 설득력 있는 결과를 제시할 수 있도록 비교적 비최적이지만 실용적인 관심을 가지고 있는 관련 아키텍처에서 우리의 볼륨 표현을 사용하는 것을 조사합니다.
Pavlakos 등(Sat,)은 이 질문을 연구했습니다.