Key points are not available for this paper at this time.
Die gemeinsame Verarbeitung von Informationen aus mehreren Sensoren ist entscheidend für eine genaue und robuste Wahrnehmung zuverlässiger autonomer Fahrsysteme. Aktuelle Forschung zur 3D-Wahrnehmung folgt jedoch einem modalitätsspezifischen Paradigma, was zu zusätzlichen Rechenaufwänden und ineffizienter Zusammenarbeit zwischen verschiedenen Sensordaten führt. In diesem Papier präsentieren wir ein effizientes multimodales Rückgrat für die 3D-Wahrnehmung im Freien, das UniTR heißt und eine Vielzahl von Modalitäten mit einheitlicher Modellierung und gemeinsamen Parametern verarbeitet. Im Gegensatz zu früheren Arbeiten führt UniTR einen modalitätsagnostischen Transformer-Encoder ein, um diese ansichtsdiskrepanten Sensordaten für paralleles modalweise Lernrepräsentationen und automatische intermodale Interaktion ohne zusätzliche Fusionsschritte zu behandeln. Außerdem präsentieren wir eine neuartige multimodale Integrationsstrategie, die sowohl die semantisch reichhaltige 2D-Perspektive als auch die geometriebewussten 3D-sparsity-Nachbarschaftsbeziehungen berücksichtigt. UniTR ist zudem ein grundsätzlich aufgabenagnostisches Rückgrat, das auf natürliche Weise verschiedene 3D-Wahrnehmungsaufgaben unterstützt. Es setzt einen neuen Stand der Technik auf dem nuScenes-Benchmark, erreicht +1,1 NDS höher bei der 3D-Objekterkennung und +12,0 höher mIoU für die BEV-Kartensegmentierung mit geringerer Inferenzlatenz. Der Code wird verfügbar sein unter https://github.com/Haiyang-W/UniTR.
Wang et al. (Sun,) haben diese Frage untersucht.