Key points are not available for this paper at this time.
마스크 오토인코더(MAE)는 최근 NLP와 컴퓨터 비전에서 큰 성공을 거둔 자가 감독학습 방법입니다. 그러나 포인트 클라우드 이해를 위한 마스크 사전 학습의 잠재적 장점은 충분히 탐구되지 않았습니다. 3D 공간에서 저수준 기하학적 표현을 탐구하기 위해 Transformer 아키텍처를 사용한 MAE 기반 포인트 클라우드에 대한 예비 작업이 있으며, 이는 세분화된 디코딩 완성과 다운스트림 작업에 불충분합니다. 다중 모달성에 영감을 받아, 우리는 포인트 클라우드에 대한 자가 감독학습을 위한 인터 모달 MAE 방법인 Inter-MAE를 제안합니다. 구체적으로, 먼저 Point-MAE를 기준으로 사용하여 포인트 클라우드를 무작위로 낮은 비율의 가시 점 패치와 높은 비율의 마스크 점 패치로 분할합니다. 그런 다음 비대칭 설계와 마스크 전이 작업을 통해 표준 Transformer 기반의 오토인코더를 구축하고, 가시 점 패치에서 마스크 점 패치를 복구하는 것을 목표로 잠재적 특징을 학습합니다. 또한, 우리는 포인트 클라우드 렌더링 후 ViT를 기반으로 이미지 특징을 생성하여 완성된 점 패치의 디코딩 특징과 함께 인터 모달 대조 학습을 형성합니다. 광범위한 실험 결과, 제안된 Inter-MAE는 효과적이며 다양한 다운스트림 작업에서 우수한 결과를 보이는 사전 훈련된 모델을 생성합니다. 예를 들어, ScanObjectNN에서 85.4%의 정확도를 달성하고 ShapeNetPart에서 86.3%를 달성하여 다른 최첨단 자가 감독학습 방법들을 능가합니다. 특히, 우리의 작업은 이미지 모달리티를 마스크된 포인트 클라우드에 적용하는 가능성을 처음으로 확립합니다.
Liu et al. (Mon,)은 이 질문을 연구했습니다.