Los puntos clave no están disponibles para este artículo en este momento.
Los métodos basados en aprendizaje han mostrado resultados muy prometedores para la tarea de estimación de profundidad en imágenes únicas. Sin embargo, la mayoría de los enfoques existentes tratan la predicción de profundidad como un problema de regresión supervisada y, como resultado, requieren grandes cantidades de datos de profundidad de verdad correspondiente para el entrenamiento. Solo grabar datos de profundidad de calidad en una variedad de entornos es un problema desafiante. En este trabajo, innovamos más allá de los enfoques existentes, reemplazando el uso de datos de profundidad explícita durante el entrenamiento con material estereoscópico binoculares más fácil de obtener. Proponemos un nuevo objetivo de entrenamiento que permite a nuestra red neuronal convolucional aprender a realizar la estimación de profundidad en una imagen única, a pesar de la ausencia de datos de profundidad de verdad. Aprovechando las restricciones de geometría epipolar, generamos imágenes de disparidad entrenando nuestra red con una pérdida de reconstrucción de imagen. Mostramos que resolver solo la reconstrucción de imagen resulta en imágenes de profundidad de mala calidad. Para superar este problema, proponemos una nueva pérdida de entrenamiento que refuerza la consistencia entre las disparidades producidas en relación con ambas imágenes, izquierda y derecha, lo que lleva a un rendimiento y robustez mejorados en comparación con los enfoques existentes. Nuestro método produce resultados de última generación para la estimación de profundidad monocular en el conjunto de datos de conducción KITTI, incluso superando métodos supervisados que han sido entrenados con profundidad de verdad.
Godard et al. (Sat,) estudiaron esta cuestión.