Key points are not available for this paper at this time.
A realização da detecção unificada de objetos 3D monoculares, incluindo cenas internas e externas, tem grande importância em aplicações como navegação de robôs. No entanto, envolver diversos cenários de dados para treinar modelos apresenta desafios devido às suas características significativamente diferentes, como, por exemplo, propriedades geométricas diversas e distribuições de domínio heterogêneas. Para abordar esses desafios, construímos um detector com base no paradigma de detecção de visão de pássaro (BEV), onde a projeção de características explícitas é benéfica para resolver a ambiguidade no aprendizado de geometria ao empregar múltiplos cenários de dados para treinar detectores. Em seguida, dividimos a arquitetura clássica de detecção BEV em duas etapas e propomos um design de grade BEV desigual para lidar com a instabilidade de convergência causada pelos desafios mencionados. Além disso, desenvolvemos uma estratégia de projeção de características BEV esparsa para reduzir o custo computacional e um método unificado de alinhamento de domínio para lidar com domínios heterogêneos. Combinando essas técnicas, um detector unificado UniMODE é derivado, que supera o estado da arte anterior no desafiador conjunto de dados Omni3D (um conjunto de dados em grande escala incluindo cenas internas e externas) em 4,9% AP₃D, revelando a primeira generalização bem-sucedida de um detector BEV para detecção unificada de objetos 3D.
Li et al. (Quarta-feira) estudaram esta questão.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: