March 13, 2024Open Access

Predicción de ocupación semántica 3D en tiempo real para vehículos autónomos utilizando convolución dispersa eficiente en memoria

Puntos clave

Los puntos clave no están disponibles para este artículo en este momento.

Resumen

En vehículos autónomos, comprender el entorno 3D que rodea al vehículo ego en tiempo real es esencial. Una forma compacta de representar escenas mientras se codifican distancias geométricas e información de objetos semánticos es a través de mapas de ocupación semántica 3D. Los métodos de mapeo 3D de última generación aprovechan transformadores con mecanismos de atención cruzada para elevar las características de las cámaras centradas en visión 2D al dominio 3D. Sin embargo, estos métodos enfrentan desafíos significativos en aplicaciones en tiempo real debido a sus altas demandas computacionales durante la inferencia. Esta limitación es particularmente problemática en vehículos autónomos, donde los recursos de GPU deben ser compartidos con otras tareas como localización y planificación. En este artículo, introducimos un enfoque que extrae características de imágenes de cámaras 2D en vista frontal y escaneos de LiDAR, y luego emplea una red de convolución dispersa (Minkowski Engine) para la predicción de ocupación semántica 3D. Dado que las escenas exteriores en escenarios de conducción autónoma son inherentemente dispersas, la utilización de convolución dispersa es particularmente adecuada. Al abordar conjuntamente los problemas de finalización de escenas 3D dispersas y segmentación semántica 3D, proporcionamos un marco de aprendizaje más eficiente adecuado para aplicaciones en tiempo real en vehículos autónomos. También demostramos una precisión competitiva en el conjunto de datos de nuScenes.

Leer artículo completoexternamente

Preguntar a la IA

Me gusta

Guardar

Ver artículo completo