Les réseaux de stéréo multi-vue (MVS) ont récemment réalisé des progrès remarquables dans la reconstruction 3D dense, mais restent fondamentalement limités par leur dépendance aux indices photométriques. Par conséquent, les méthodes actuelles échouent dans les régions sans texture, réfléchissantes ou non-Lambertiennes. En même temps, les capteurs de temps de vol (ToF) commerciaux fournissent des informations de profondeur géométrique complémentaires, mais de faible résolution et bruyantes. Dans ce travail, nous étudions la possibilité d'utiliser des caractéristiques 3D extraites des données de profondeur pour surmonter les limites de MVS. Pour ce faire, nous développons RGB-D MVSNet, une architecture de bout en bout qui intègre un encodeur de fusion de profondeur avec une base moderne MVS basée sur l'apprentissage. Notre méthode construit un volume de caractéristiques unifié à partir des caractéristiques photométriques et géométriques, qui est ensuite fusionné et régularisé avec un décodeur commun. Nous évaluons l'approche sur le défiant ensemble de données Sk3D contenant des images RGB synchronisées, des profondeurs ToF et des scans en lumière structurée de haute qualité. Les expériences montrent que notre méthode améliore les métriques de précision et de complétude par rapport à la référence RGB seule et réalise certaines améliorations qualitatives dans la reconstruction de régions sans texture et brillantes. Des expériences supplémentaires avec des entrées de profondeur de haute qualité montrent que la méthode est capable d'éliminer les artefacts typiques avec une meilleure qualité d'entrée de profondeur. Ces résultats indiquent que l'intégration des indices géométriques dans les pipelines MVS est une direction prometteuse vers une reconstruction 3D plus robuste et généralisable.
Bobrovskikh et al. (Mon,) ont étudié cette question.