Key points are not available for this paper at this time.
Trabalhos recentes sobre segmentação de instância 3D de vocabulário aberto mostram grande potencial, mas ao custo de uma velocidade de inferência lenta e altos requisitos computacionais. Esse alto custo computacional deve-se tipicamente à forte dependência de características 3D clip, que requerem modelos fundamentais 2D computacionalmente caros, como Segment Anything (SAM) e CLIP para agregação multivista em 3D. Consequentemente, isso limita sua aplicabilidade em muitas aplicações reais que exigem previsões rápidas e precisas. Para isso, propomos uma abordagem de segmentação de instância 3D de vocabulário aberto rápida e precisa, chamada Open-YOLO 3D, que aproveita efetivamente apenas a detecção de objetos 2D a partir de imagens RGB multivista para segmentação de instância 3D de vocabulário aberto. Abordamos essa tarefa gerando máscaras 3D agnósticas à classe para objetos na cena e associando-as a prompts de texto. Observamos que a projeção de instâncias em nuvem de pontos 3D agnósticas à classe já contém informação de instância; assim, o uso do SAM pode apenas resultar em redundância que aumenta desnecessariamente o tempo de inferência. Encontramos empiricamente que um melhor desempenho no pareamento de prompts de texto a máscaras 3D pode ser alcançado de forma mais rápida com um detector de objetos 2D. Validamos nosso Open-YOLO 3D em dois benchmarks, ScanNet200 e Replica, sob dois cenários: (i) com máscaras de verdade-terreno, onde são necessários rótulos para propostas de objetos dadas, e (ii) com propostas 3D agnósticas à classe geradas por uma rede de propostas 3D. Nosso Open-YOLO 3D alcança desempenho estado-da-arte em ambos os conjuntos de dados enquanto obtém até 16 vezes mais velocidade em comparação ao melhor método existente na literatura. No conjunto de validação do ScanNet200, nosso Open-YOLO 3D alcança média de precisão média (mAP) de 24,7% operando a 22 segundos por cena. Código e modelo estão disponíveis em github.com/aminebdj/OpenYOLO3D.
Boudjoghra et al. (Ter,) estudaram esta questão.