A percepção semântica robusta para veículos autônomos depende da combinação efetiva de múltiplos sensores com pontos fortes e fracos complementares. Abordagens de fusão de sensores de última geração para percepção semântica frequentemente tratam os dados dos sensores de maneira uniforme ao longo da extensão espacial da entrada, o que prejudica o desempenho em condições desafiadoras. Em contraste, propomos um novo método de fusão multimodal guiada por profundidade que melhora a fusão consciente das condições integrando informações de profundidade. Nossa rede, DGFusion, apresenta a segmentação multimodal como um problema multissetorial, utilizando as medições de lidar, que geralmente estão disponíveis em conjuntos de sensores externos, tanto como uma das entradas do modelo quanto como verdade terrestre para aprender profundidade. Nossa cabeça auxiliar de profundidade correspondente ajuda a aprender características conscientes da profundidade, que são codificadas em tokens locais de profundidade espacialmente variando que condicionam nossa fusão atenta intermodal. Juntamente com um token de condição global, esses tokens locais de profundidade adaptam dinamicamente a fusão de sensores à confiabilidade espacialmente variável de cada sensor na cena, que depende amplamente da profundidade. Além disso, propomos uma perda robusta para nossa profundidade, que é essencial para aprender com entradas de lidar que são tipicamente escassas e ruidosas em condições adversas. Nosso método alcança desempenho de última geração em segmentação panóptica e semântica nos desafiadores conjuntos de dados MUSES e DELIVER. O código e os modelos estarão disponíveis em https://github.com/timbroed/DGFusion
Broedermannn et al. (qui,) estudaram essa questão.