Key points are not available for this paper at this time.
자동화된 3D 콘텐츠 생성 파이프라인에 대한 수요가 증가함에 따라, 우리는 단일 이미지로부터 3D 자산을 효율적으로 재구성하는 문제에 도전합니다. 이전의 방법들은 주로 점수 증류 샘플링(Score Distillation Sampling, SDS) 및 신경 방사장(Neural Radiance Fields, NeRF)에 의존합니다. 이러한 접근 방식은 상당한 성공을 거두었지만, 긴 최적화 과정과 상당한 메모리 사용으로 인해 실제적인 한계에 직면합니다. 이 보고서에서는 단일 보기 이미지에서 엔드 투 엔드로 일반화된 3D 재구성 모델인 Gamba를 소개하며, 두 가지 주요 통찰을 강조합니다: (1) 3D 표현: 효율적인 3D 가우시안 스플래팅 프로세스를 위한 다수의 3D 가우시안을 활용하고, (2) 백본 설계: 컨텍스트 의존적 추론 및 시퀀스(토큰) 길이에 따른 선형 확장을 용이하게 하는 맘바 기반의 순차 네트워크를 도입하여 상당한 수의 가우시안을 수용합니다. Gamba는 데이터 전처리, 정규화 설계 및 훈련 방법론에서 중요한 발전을 통합하였습니다. 우리는 Gamba를 실제로 스캔한 OmniObject3D 데이터셋을 사용하여 기존의 최적화 기반 및 피드 포워드 3D 생성 접근 방식과 비교했습니다. 여기서 Gamba는 질적으로나 양적으로 경쟁력 있는 생성 능력을 보여주며, 단일 NVIDIA A100 GPU에서 약 0.6초의 놀라운 속도를 달성합니다.
Shen et al. (수요일)은 이 질문을 연구하였습니다.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: