Los puntos clave no están disponibles para este artículo en este momento.
La segmentación semántica de escenas urbanas es un componente esencial en varias aplicaciones de conducción autónoma. Ha avanzado considerablemente con el auge de las tecnologías de aprendizaje profundo. La mayoría de las redes actuales de segmentación semántica utilizan datos sensoriales de un solo modo, que suelen ser imágenes RGB producidas por cámaras visibles. Sin embargo, el rendimiento de segmentación de estas redes tiende a degradarse cuando no se satisfacen las condiciones de iluminación, como luz tenue u oscuridad. Encontramos que las imágenes térmicas producidas por cámaras de imagen térmica son robustas ante condiciones de iluminación desafiantes. Por lo tanto, en este artículo, proponemos una nueva red de fusión de datos RGB y térmicos denominada FuseSeg para lograr un rendimiento superior en la segmentación semántica de escenas urbanas. Los resultados experimentales demuestran que nuestra red supera a las redes de vanguardia. Nota para los profesionales: este artículo investiga el problema de la segmentación semántica de escenas urbanas cuando no se satisfacen las condiciones de iluminación. Proporcionamos una solución a este problema a través de la fusión de información con datos RGB y térmicos. Construimos una red neuronal profunda de extremo a extremo, que toma como entrada un par de imágenes RGB y térmicas y produce etiquetas semánticas a nivel de píxeles. Nuestra red podría ser utilizada para la comprensión de escenas urbanas, que sirve como un componente fundamental de muchas tareas de conducción autónoma, como la modelación del entorno, la evitación de obstáculos, la predicción de movimientos y la planificación. Además, el diseño simple de nuestra red permite que sea implementada fácilmente utilizando diversos marcos de aprendizaje profundo, lo que facilita las aplicaciones en diferentes plataformas de hardware o software.
Sun et al. (Thu,) estudiaron esta cuestión.