Key points are not available for this paper at this time.
최근 확산 모델은 다중 모드 행동 분포를 모델링할 수 있는 로봇 정책 학습을 위한 강력한 생성 기법으로 떠올랐습니다. 종단 간 자율 주행에 대한 그 능력을 활용하는 것은 유망한 방향입니다. 그러나 로봇 확산 정책의 수많은 노이즈 제거 단계와 더 역동적이고 열린 세계의 교통 장면 특성은 실시간 속도로 다양한 주행 행동을 생성하는 데 상당한 도전 과제를 제시합니다. 이러한 도전 과제를 해결하기 위해, 우리는 사전 다중 모드 앵커를 통합하고 확산 일정을 절단하는 새로운 절단된 확산 정책을 제안하여 모델이 고정된 가우시안 분포에서 다중 모드 주행 행동 분포로 노이즈를 제거하도록 학습할 수 있게 합니다. 또한 조건부 장면 맥락과의 상호 작용을 향상시키기 위한 효율적인 캐스케이드 확산 디코더를 설계하였습니다. 제안된 모델인 DiffusionDrive는 일반 확산 정책에 비해 노이즈 제거 단계를 10배 줄이며, 단 2단계 만에 우수한 다양성과 품질을 제공합니다. 계획 지향적인 NAVSIM 데이터 세트에서 정렬된 ResNet-34 백본을 사용하여 DiffusionDrive는 벨과 호루라기 없이 88.1 PDMS를 달성하며 새로운 기록을 수립하면서 NVIDIA 4090에서 실시간 속도 45 FPS로 실행됩니다. 도전적인 시나리오에서의 정성적 결과는 DiffusionDrive가 다양한 그럴듯한 주행 행동을 강력하게 생성할 수 있음을 추가로 확인시킵니다.
Liao et al. (Tue,) 이 문제를 연구했습니다.