Key points are not available for this paper at this time.
Nous présentons GeoWizard, un nouveau modèle fondation génératif conçu pour estimer les attributs géométriques, par exemple, la profondeur et les normales, à partir d'images uniques. Bien que des recherches significatives aient déjà été menées dans ce domaine, les progrès ont été substantiellement limités par la faible diversité et la mauvaise qualité des ensembles de données disponibles publiquement. En conséquence, les travaux antérieurs sont soit contraints à des scénarios limités, soit souffrent de l'incapacité à capturer les détails géométriques. Dans cet article, nous démontrons que les modèles génératifs, contrairement aux modèles discriminatifs traditionnels (par exemple, les CNN et les Transformers), peuvent aborder efficacement le problème intrinsèquement mal posé. Nous montrons également que l'exploitation des priors de diffusion peut améliorer considérablement la généralisation, la préservation des détails et l'efficacité dans l'utilisation des ressources. Plus précisément, nous étendons le modèle de diffusion stable original pour prévoir conjointement la profondeur et la normale, permettant un échange d'informations mutuelles et une haute cohérence entre les deux représentations. Plus important encore, nous proposons une stratégie simple mais efficace pour séparer la distribution de données complexe de diverses scènes en sous-distributions distinctes. Cette stratégie permet à notre modèle de reconnaître différentes dispositions de scène, capturant la géométrie 3D avec une fidélité remarquable. GeoWizard établit de nouvelles références pour la prédiction de profondeur et de normales sans ajustement, améliorant de manière significative de nombreuses applications en aval telles que la reconstruction 3D, la création de contenu 2D et la synthèse de nouveaux points de vue.
Fu et al. (Mon,) ont étudié cette question.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: