Key points are not available for this paper at this time.
조감도(BEV) 세멘틱 세그멘테이션은 자율주행을 위한 공간 감지에서 중요한 역할을 합니다. 최근 문헌은 BEV 지도 이해에 상당한 진전을 이루었지만, 이들은 모두 단일 에이전트 카메라 기반 시스템에 기반하고 있습니다. 이러한 솔루션은 복잡한 교통 장면에서 폐색(occlusion)을 처리하거나 먼 물체를 감지하는 데 어려움이 있을 수 있습니다. 차량 간(V2V) 통신 기술은 자율주행차가 감지 정보를 공유할 수 있게 하여, 단일 에이전트 시스템에 비해 인식 성능과 범위를 극적으로 개선합니다. 본 논문에서는 협력적으로 BEV 지도 예측을 생성할 수 있는 첫 번째 범용 다중 에이전트 다중 카메라 인식 프레임워크인 CoBEVT를 제안합니다. 기본 Transformer 아키텍처에서 다중 뷰 및 다중 에이전트 데이터의 카메라 특징을 효율적으로 융합하기 위해, 우리는 뷰와 에이전트 간의 희미하게 지역적이고 전반적인 공간 상호작용을 캡처하는 융합 축 주의 모듈(FAX)을 설계했습니다. V2V 인식 데이터셋인 OPV2V에 대한 폭넓은 실험 결과, CoBEVT는 협업 BEV 세멘틱 세그멘테이션에서 최첨단 성능을 달성하는 것으로 입증되었습니다. 게다가 CoBEVT는 1) 단일 에이전트 다중 카메라를 이용한 BEV 분할 및 2) 다중 에이전트 LiDAR 시스템을 이용한 3D 물체 탐지와 같은 다른 작업에도 일반화 가능함이 입증되었으며, 실시간 추론 속도로 최첨단 성능을 달성합니다. 코드는 https://github.com/DerrickXuNu/CoBEVT 에서 확인할 수 있습니다.
Xu et al. (Tue,)는 이 질문을 연구했습니다.