대시캠 비디오에서 동적 주행 장면을 재구성하는 것은 자율주행 및 장면 이해에서의 중요성 때문에 점점 더 많은 주목을 받고 있다. 최근의 발전은 인상적인 진전을 이루었지만, 대부분의 방법은 여전히 모든 배경 요소를 단일 표현으로 통합하여 인스턴스 수준의 이해와 유연한 장면 편집을 방해하고 있다. 일부 접근법은 2D 분할을 3D 공간으로 확장하려고 시도하지만, 종종 사전 처리된 인스턴스 ID 또는 연속적인 특징을 이산 정체성에 매핑하기 위해 복잡한 파이프라인에 의존한다. 또한, 이러한 방법들은 일반적으로 풍부한 시점을 가진 실내 장면을 위해 설계되어 있어 실외 주행 시나리오에 덜 적용 가능하다. 본 논문에서는 동적 주행 장면의 인터랙티브한 재구성을 위해 맞춤형으로 설계된 인스턴스 인식 3D 가우시안 스플래팅 프레임워크인 InstDrive를 제시한다. 우리는 SAM에 의해 생성된 마스크를 가짜 실제값으로 사용하여 대조 손실과 가짜 감독 목표를 통해 2D 기능 학습을 유도한다. 3D 수준에서 우리는 인스턴스 정체성을 암묵적으로 인코딩하고, 복셀 기반 손실을 통해 일관성을 보장하기 위해 정규화를 도입한다. 경량 정적 코드북은 데이터 전처리나 복잡한 최적화를 요구하지 않고 연속적인 특징과 이산 정체성 간의 간극을 메운다. 정량적 및 정성적 실험은 InstDrive의 효과성을 입증하며, 우리가 아는 한 동적인 개방형 주행 장면에서 3D 인스턴스 분할을 달성한 최초의 프레임워크이다. 더 많은 시각화는 우리의 프로젝트 페이지에서 확인할 수 있다.
Liu et al. (Sat,)이 이 질문을 연구하였다.