三维视觉作为计算机视觉、图形学、人工智能与光学成像的交叉学科,是构建具身通用智能与元宇宙的核心基石。2025 年,以 VGGT (Wang 等, 2025d) 为代表的前馈三维重建技术的突破,为空间智能提供了坚实的场景三维理解基础,并大幅降低高质量三维内容的制作门槛;三维生成质量逐渐达到工业级扫描水平,技术从单图实例生成向动态复杂场景的多实例前馈重建演进;三维重建与三维生成开始深度融合,逐渐实现复杂场景在稀疏视点输入下的前馈式重建;视频生成技术正融入各式三维表征,推动 “感知-生成-交互” 一体化的世界模型技术的发展,世界模型已被广泛认为是实现可泛化具身智能与通用人工智能(artificial general intelligence,AGI)的关键路径;蕴含物理常识、因果推理与交互偏好的人类行为与第一人称视频数据开始被广泛使用,成为突破具身智能数据瓶颈、驱动具身智能 Scaling 的核心燃料;具身智能视觉-语言-动作(vision-language-action,VLA)模型正从依赖专家演示的模仿学习,转向融合在线强化学习的复合架构,可在稀疏奖励下显著提升模型的泛化与探索能力。这些技术突破奠定了“多模感知-三维建模-四维生成-实时交互”一体化智能架构的雏形,为空间智能和具身智能的实质性发展提供了关键技术支撑。为促进学术交流,本文分析总结三维视觉领域前沿趋势,并遴选年度十大研究进展,为学术界与产业界提供参考观点。
Building similarity graph...
Analyzing shared references across papers
Loading...
Liu Yebin
瑶 穆
Ye Qi
Journal of Image and Graphics
Building similarity graph...
Analyzing shared references across papers
Loading...
Yebin et al. (Thu,) studied this question.
www.synapsesocial.com/papers/69f1a033edf4b46824806e11 — DOI: https://doi.org/10.11834/jig.260114
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: