March 12, 2024Open Access

D4D: Un modelo de difusión RGBD para mejorar la estimación de profundidad monocular

Puntos clave

Los puntos clave no están disponibles para este artículo en este momento.

Resumen

Los datos RGBD de verdad son fundamentales para una amplia gama de aplicaciones de visión por computadora; sin embargo, esas muestras etiquetadas son difíciles de recolectar y llevan mucho tiempo producir. Una solución común para superar esta falta de datos es emplear motores gráficos para producir proxies sintéticos; sin embargo, esos datos a menudo no reflejan imágenes del mundo real, lo que resulta en un bajo rendimiento de los modelos entrenados en la etapa de inferencia. En este artículo proponemos un nuevo pipeline de entrenamiento que incorpora Diffusion4D (D4D), un modelo de difusión personalizado de 4 canales capaz de generar muestras RGBD realistas. Mostramos la efectividad de la solución desarrollada en mejorar el rendimiento de los modelos de aprendizaje profundo en la tarea de estimación de profundidad monocular, donde la correspondencia entre RGB y el mapa de profundidad es crucial para lograr mediciones precisas. Nuestro pipeline de entrenamiento supervisado, enriquecido por las muestras generadas, supera el rendimiento de los datos sintéticos y originales logrando una reducción del RMSE de (8.2%, 11.9%) y (8.1%, 6.1%) respectivamente en el conjunto de datos indoor NYU Depth v2 y el conjunto de datos outdoor KITTI.

Leer artículo completoexternamente

Preguntar a la IA

Me gusta

Guardar

Ver artículo completo