2025年6月4日,应太阳集团8722c潘利源和梁玮老师邀请,Meta AI研究员与牛津大学视觉几何组(VGG)的联合培养博士生王建元作题为“VGGT:Visual Geometry Grounded Transformer”的报告。此次报告由太阳集团8722c潘利源老师主持,图像计算与感知智能所相关研究方向教师和研究生参加了学术报告。
本次研讨会,王建元分享了其工作如何从传统几何方法向数据驱动方法转变,同时详细讨论其团队最新提出的VGGT (Visual Geometry Grounded Transformer,已获得CVPR 2025 Best Paper)背后的设计思想。VGGT是一个前馈神经网络,能够直接从单视图或多视图高效准确地预测场景关键的三维属性,包括相机参数、深度图、点图,和三维轨迹。VGGT不仅实现了多个三维视觉任务的一体化,并且由于其架构的简洁与高效,摆脱了传统方法对视觉几何优化等后处理步骤的依赖,达到了领先于现有技术的性能。VGGT 在多个三维任务中达到了当前最优水平,包括相机参数估计、多视图深度预测、密集点云重建和轨迹跟踪。此外,将预训练的VGGT作为特征提取网络应用于非刚性轨迹跟踪与前馈新视角合成等下游任务中,显著提升了相关任务的表现。
报告结束,王建元还与参会的学院师生就3D vision foundation model、vision幻觉等当前问题与未来发展展开了热烈的讨论。本次报告进一步拓宽了学院师生的国际视野,学院师生对三维重建的相关知识有了更深入的理解和对科研和写作的认识,为未来双方三维人工智能方向的学术研究和交流合作奠定了基础。
报告人简介:
王建元,现为Meta AI研究员与牛津大学视觉几何组(VGG)的联合培养博士生。他的研究方向为三维理解,尤其关注图像到三维场景的重建问题,近期工作包括PoseDiffusion、VGGSfM 和 VGGT 。他与 David Novotny、Christian Rupprecht 及 Andrea Vedaldi 紧密合作。