论文解读:MP-SfM: Monocular Surface Priors for Robust Structure-from-Motion

[复制链接]
发表于 2025-9-12 17:58:04 | 显示全部楼层 |阅读模式

择要:

        只管结构光束法(SfM)比年来取得了显着盼望,但在极度视角厘革、低重叠、低视差或高度对称的场景下,现有开始辈的体系仍轻易失败。由于制止这些题目的图像收罗具有寻衅性,因此这些限定严峻拦阻了SfM的广泛应用,特别是对非专业用户。
        本文提出通过引入由深度神经网络猜测的单目深度与法向先验信息来扩展传统的SfM方法,从而降服上述题目。通过将单目和多视角的束缚精密团结,本研究方法在面对极度视角厘革时显着优于现有方法,同时在通例条件下仍保持强大的性能。本研究还展示了单目先验能够有效制止由于场景对称性导致的错误匹配,这是SfM中一个恒久存在的题目。本体系初次实现了从少量图像中可靠地重建复杂室底细况。通过公道的先验不确定性传播方法,我们的体系对先验偏差具有鲁棒性,能兼容差别模子天生的先验信息,且险些无需调解,因此能够轻松顺应将来单目深度与法向估计技能的发展。代码已公开发布:github.com/cvg/mpsfm。

引言(Introduction)

        结构光束法(Structure-from-Motion, SfM)是盘算机视觉范畴的一个焦点题目,涉及从一组二维图像中估计三维结构和相机活动。该范畴已经取得了巨大盼望,催生了很多先辈的SfM体系,如Bundler、VisualSfM、COLMAP 和 GLOMAP,这些体系在定位与建图、多视图立体重建以及新视角合成等使掷中广泛应用。
        只管云云,SfM仍存在多个寻衅和失败环境,尤其是在面对极度视角或光照厘革、重复结构、大规模场景、以及隐私保护等方面。此中最常见的失败环境是极度视角厘革,比方低重叠或低视差的图像对,这类环境会影响SfM重建过程中的多个阶段。固然比年来在图像匹配方面,呆板学习取得了巨大突破,能够应对极度视角或对称题目,但在后续重建阶段仍存在根天性限定,常常导致不稳固以致失败的重建结果。
        现在主流的SfM体系广泛依靠于三视图重叠(即至少三张图像共同观察到一个三维点),以包管三维结构的划一性。然而,在实际拍摄过程中,确保充足的视角重叠本身就是一项寻衅。这对非专业用户而言尤其困难,即便是专家也必要提前经心规划或多次实验才华捕获到抱负的图像聚集。拍摄冗余图像虽可进步重建的大概性,但却带来了处理惩罚时间、存储和盘算本钱的大幅增长。
        本文提出了一种基于单目深度估计的方案,用以解决这些剩余的关键困难。我们将单目深度与法向信息引入传统的增量式SfM流程中,从而不再依靠三视图轨迹,仅通过两视图即可实现准确的三维重建。这使得体系在低重叠场景中依然具有强大性能,同时在高重叠场景下表现依然稳固。我们还引入了麋集深度划一性检测方法,可用于识别对称性导致的错误配准。通过融合单视图和多视图优化,并团结不确定性传播,我们的体系可以有效处来由单目深度估计带来的偏差,并与多视图结构共同优化。此外,将来深度学习方法在深度与法向估计方面的进步将直接加强本体系性能,而无需额外调解。
干系工作

传统的SfM:

早期的SfM研究紧张靠定序视频序列来进行三维重建,后续研究转向处理惩罚无序的图像聚集。经典的体系通常分为增量式和全局式第二类经典编程,此中COLMAP是最常用的增量式SfM引擎。
然而,这些体系有一个共同的根本限定:必要至少三张图片的重叠观点才华构成线程路径,以包管三维结构的稳固性。有工作已经评估过这个题目,并实验利用混淆2D-3D或2D-2D对应关系进行相机姿态估计。也有研究者实验仅通过图像轨径边沿进行两视图SfM,但还是依靠三视图重叠以确定观测比例。
与之相比,我们的方法不必要三视图路径或重叠,且通过强大的单相光光源先驱动,制止了传统方法常见的观点表达失效题目。
SfM中的深度学习:

在呆板学习大量乐成应用后,一系列工作实验将数据驱动的方法融入SfM模块,此中大部分接洽在特性表示和匹配阶段,如SuperPoint、LightGlue等。也有少量工作要展示在指数编辑、质料调解和相机标定等方面的进步。
近来一些新体系如DuSt3R、MASt3R等在两视图匹配和重建上到达了良好性能,MASt3R-SfM就是基于这样的匹配和点云形貌,用类似于传统全局SfM的模子进行重建。第一类型经进入后,还有数据驱动体系实验颠末端到端训练条件进行共同最优化。然而,这些经迟体系在广泛或大规模场景中仍难以替代传统SfM。
相比之下,我们在传统增量式SfM中融入了单相光光源先驱动以解决这些失效题目,同时保持了体系的通用性和可扩展性。

3. 方法(Method)

起首对题目进行公式化,并概述我们的体系流程——如下图所示。

输入(Inputs):

体系吸收以下输入:

  •         一组无序图像

  •         每张图像的内参

  •         对每张图像,我们估计其单目深度图
     和法向图
    ,以及它们各自的不确定性图
      

输出(Outputs):



体系概述(System Overview):



3.1 两视图初始化(Two-View Initialization)

初始姿态估计:

鉴戒COLMAP,我们起首根据内点数目排序图像对,选取能估计稳固相对姿态的图像对。假如没有满意条件的图像对,我们就利用单目深度作为先验,从图像 Ia 中提取三维点,再与 Ib 中的二维点进行PnP姿态估计,初始化两视图的姿态。
初始三维点云构建:

我们通过提升低视差的内点并对别的点三角化来构建初始点云,然后用以下公式对每张图像的深度图进行尺度对齐:

末了,我们将未与任何三维点关联的图像点通过深度提升添加到点云中。

3.2 下一视图注册(Next View Registration)

视图选择(View Selection):



注册(Registration):



随后进行一次局部优化(见第3.3节)和深度划一性查抄(见第3.4节)。
3.3 局部与全局优化(Local and Global Refinement)

在完成两视图初始化和新视图注册之后,团结优化相机姿态与三维结构。
鉴戒 COLMAP 的调治机制,在已注册图像与三维点之间交替实行局部或全局的 bundle adjustment(捆绑调解)。这种方式可使增量式 SfM 到达摊销后的线性运行时间。

优化题目界说(Optimization Problem):




  •        


高效求解计谋(Efficient Solving):
团体目的函数的 Hessian 矩阵具有复杂的希罕结构(见附录),不得当利用 Schur 补本领。为保留优化的可行性,我们采用交替块坐标降落计谋:


3.4 深度划一性查抄(Depth Consistency Check)

仅依靠希罕图像观测进行重建过滤(如 COLMAP 所采用的)固然紧张,但在检测遮挡辩论和自由空间辩论方面存在范围。传统的希罕 SfM 在图像因对称结构、姿态估计失败或其他错误注册而导致的瓦解性错误中表现不佳。





3.5 实现细节(Implementation Details)

匹配搜索(Correspondence Search):

我们紧张依靠 COLMAP 的匹配流程,但利用了更强的特性和匹配器:

  •         特性提取采用 SuperPoint
  •         匹配器利用 LightGlue
由于我们的方法不依靠三视图轨迹(multi-view tracks),因此能够有效处理惩罚稠密匹配。此外,我们也在实验中测试了 RoMa 等稠密匹配方法。
在利用 MASt3R 进行图像匹配时,我们利用其提供的深度估计与 DSINE 估计的法向信息。我们还在第 4.3 节中测试了其他深度模子(比方 Depth Anything v2、DepthPro)。

单目深度先验(Monocular Depth Priors):

我们最通用的设置利用 Metric3D-v2 猜测的深度和法向先验,并附带每像素的不确定性估计。

  •         利用 MASt3R 匹配器时,我们则利用其自身的深度猜测结果,并配合 DSINE 提供的法向图;
  •         我们还在第 4.3 节中评估了其他模子的结果。

优化细节(Refinement Optimization):


  •        



4. 实验(Experiments)

我们从两个方面评估体系性能:

  •         低重叠(low-overlap)场景;
  •         低视差(low-parallax)场景。

4.1 低重叠重建(Low-overlap Reconstruction)

设置(Setup):

我们选用了多个 SfM 数据会合的图像聚集【如 ETH3D [53]、SMERF [15]、Tanks & Temples [33]】。
对于每个场景,我们采样差别重叠度的图像组。
视角重叠的界说如下:

  •         假如有 GT 深度图,则根据可见像素比盘算;
  •         否则,利用原始 SfM 模子中可见三维点的数目盘算。
我们假设相机内参已知。
相机姿态评估尺度依照【文献[29]】,通过与 GT 相比盘算旋转宁静移的最大角度偏差,并报告 1°/5°/20° 内的 AUC(Area Under the recall Curve)。

对比方法(Compared Approaches):

基于希罕匹配的方法:

  •         COLMAP + SIFT;
  •         COLMAP + SuperPoint + LightGlue(SP+LG);
  •         SLR(Structure-less Resectioning)【73】;
  •         GLOMAP【43】(全局SfM)。
基于稠密匹配的方法:

  •         RoMa【19】与 COLMAP;
  •         DF-SfM【24】:利用 LoFTR 匹配后在 COLMAP 上优化;
  •         VGG-SfM【64】:对图像子集同时估计对应关系;
  •         MASt3R-SfM【16】:基于两视图稠密点云构建。
我们的方法对这些匹配输入均可适配。

三图像组实验(Triplet Evaluation):

我们从 ETH3D 中采样多个室表里场景,构建多个三图像组合,重叠度从 0 到 50%。如图1所示。
实验结果表现:

  •         COLMAP 在低重叠(特别是无三视图轨迹)下重建失败;
  •         SP+LG 和 SLR 进步了一些鲁棒性,但仍然不敷;
  •         我们的方法在各重叠度下均表现更稳健,AUC@20° 和 AUC@1° 均领先。

场景级完备重建(Full-scene SfM):

我们从以下数据会合构建多图像场景:

  •         ETH3D;
  •         SMERF;
  •         Tanks & Temples。
我们采样 5 个差别重叠级别的图像子集,并以 COLMAP 在完备图像集上重建得到的相机位姿作为 GT。
实验结果表现:

  •         在低重叠场景中,我们显着优于所有现有方法;
  •         随偏重叠度增长,我们在鲁棒性上仍保持领先;
  •         稠密特性(如 RoMa、MASt3R)匹配比 SP+LG 更有效;
  •         MASt3R 能更好地处理惩罚极度视角,带来团体最佳匹配输入;
  •         在 T&T 的部分以物体为中心的场景中,我们在 AUC@1° 上略逊 MASt3R-SfM,紧张由于其远景点希罕。
图 3 展示了各方法在低重叠场景下的可视化比力。

4.2 低视差重建(Low-parallax Reconstruction)

由于增量式 SfM 在图像注册阶段依靠粗糙的三维结构,因此在低视差(即相机移动方向与视线方向靠近)的场景下轻易失败。
设置(Setup):

我们采用 RealEstate10K 数据集【74】,此中包含大量室内和室外视频序列,这些序列具有以下寻衅特性:

  •         纹理希罕;
  •         相机前向平移;
  •         原地旋转等低视差活动模式。
我们对比以下方法:

  •         COLMAP 和 GLOMAP(分别采用 SuperPoint 和 LightGlue 特性);
  •         MASt3R-SfM【16】;
  •         StudioSfM【37】:专为低视差场景设计,利用单目深度进行初始化和正则化,但不进行深度 refinement 或不确定性处理惩罚。
我们还调解了 COLMAP 的最小三角化角度参数,使其更适用于低视差设置(包括默认值与调优值两个版本)。

实验结果(Results):

如表 3 所示,我们将方法分为两类:

  •         全局 SfM 方法:如 GLOMAP 和 MASt3R-SfM,在结构不依靠多视角三角化的条件下,自然更顺应低视差场景;
  •         增量式 SfM 方法:如 COLMAP 与我们的方法。
我们的方法(MP-SfM)在增量式范式下仍能有效处理惩罚低视差题目,以致超过了 MASt3R-SfM 的精度。这紧张归功于我们在整个流程中引入了单目先验,并对其不确定性进行建模和优化。
换句话说,MP-SfM 缩小了增量式与全局 SfM 在低视差条件下的性能差距,同时保持了增量式框架的灵活性与扩展性。




免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
继续阅读请点击广告

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

×
回复

使用道具 举报

×
登录参与点评抽奖,加入IT实名职场社区
去登录
快速回复 返回顶部 返回列表