欢乐狗 发表于 2024-9-8 01:08:54

MASt3R:从3D的角度来实现图像匹配(更新中)

Abstract

        图像匹配是 3D 视觉中所有性能最佳算法和pipeline的核心组件。 然而,尽管匹配从根本上来说是一个 3D 问题,与相机姿态和场景几何布局有内在接洽,但它通常被视为一个 2D 问题。由于匹配的目的是创建 2D 像素字段之间的对应关系,但这是一个具有潜伏危险的选择。 在这项工作中,我们换一种视角,使用 DUSt3R(一种基于 Transformers 的最新且强大的 3D 重建框架)将匹配作为 3D 使命。
         该方法基于点图回归,在匹配具有极端视点变革的视图方面显示出令人印象深刻的鲁棒性,但精度有限。 我们的目的是进步这种方法的匹配本领,同时保持其妥当性。首先, 我们发起用一个新的神经网络头来增强 DUSt3R 网络,该头输出麋集的局部特性,并用额外的匹配损失举行训练。 进一步,我们办理了麋集匹配的二次复杂度问题,如果不仔细处理,下游应用步伐的速度会变得非常慢。 我们引入了一种快速相互匹配方案,该方案不但可以将匹配速度进步几个数量级,而且还具有理论保证。大量实验表明,我们的方法在多个匹配使命上显着优于现有技术。 特殊是,在极具挑战性的无舆图定位数据集上,它的 VCRE AUC 比最好的已发布方法高出 30%(绝对改进)。
1.Introduction-我们要办理什么问题?怎样办理?

        能够在同一场景的不同图像之间创建像素之间的对应关系(称为图像匹配),构成了所有 3D 视觉应用的核心组件,spanning mapping 、local-ization , navigation , photogrammetry摄影测量 and autonomous robotics in general一样寻常自主呆板人技术 ,例如,开始辈的视觉定位方法绝大多数依赖于离线映射阶段的图像匹配,例如 使用 COLMAP ,以及在线本地化步调,通常使用 PnP 。在本文中,我们专注于这一核心使命,目的是在给定两个图像的环境下生成一个成对对应列表,表示为匹配。 特殊是,我们寻求输出高度准确和麋集的匹配,这些匹配对视点和照明变革具有鲁棒性,由于这些最终是现实世界应用的限定因素。
        传统方法是基于局部的方法,实际上,全局信息也很关键
        在已往,传统的匹配方法是分三步举行的,首先提取希奇和可重复的关键点,然后用局部稳定的特性来描述它们,最后通过比力关键点在特性空间中的距离来配对离散的关键点集。这条管道有几个优点:关键点检测器在低到中等光照和视点变革下都是精确的,关键点的希奇性使问题在计算上很容易处理,无论何时在类似条件下查看图像,都能在毫秒内实现非常精确的匹配。这表明了SIFT在COLMAP如许的3D重建管道中的乐成和长期性。
        但是,基于关键点的方法通过淘汰对关键点包问题的匹配,丢弃了对应使命的全局几何上下文。 这使得它们在重复模式或低纹理区域的环境下特殊容易出错,这实际上对于局部描述符来说是不适定的。 办理这个问题的一种方法是在配对步调中引入全局优化策略,通常利用一些学习到的匹配先验知识,SuperGlue 和类似的方法乐成实现了 。 然而,如果关键点及其描述符尚未编码足够的信息,那么在匹配期间利用全局上下文可能为时已晚。 因此,另一个方向是考虑麋集整体匹配,即完全制止关键点,并一次匹配整个图像。 近来随着cross-attention的出现,这成为可能。 如许的方法,如 LoFTR ,将图像视为一个整体,而且生成的对应集是麋集的,而且对于重复模式和低纹理区域更妥当 。
匹配使命的订定本质上是一个 3D 问题,但是现有许多方法仍然没有考虑这一点,所以我们从3D角度来重新考虑这个问题
        尽管云云,即使像 LoFTR 如许表现最好的方法,在无舆图定位基准上的 VCRE 精度也相对令人扫兴,为 34%。 我们认为这是由于到目前为止,几乎所有匹配方法都将匹配视为图像空间中的二维问题。 实际上,匹配使命的订定本质上是一个 3D 问题:对应的像素是观察相同 3D 点的像素。 究竟上,2D 像素对应和 3D 空间中的相对相机姿态是同一枚硬币的两个面,由于它们通过对极矩阵直接相关。 目前在 Map-free 基准测试中表现最好的是 DUSt3R ,这种方法最初是为 3D 重建而不是匹配而设计的,而且匹配只是 3D 重建的副产物,但是这个方法在匹配问题中具有很大潜力。
        在本文中,我们指出,虽然 DUSt3R 确实可以用于匹配,但它相对不精确,尽管对视点变革非常鲁棒。 为了补充这个缺陷,我们发起附加第二个头来回归麋集的局部特性图,并使用 InfoNCE 损失对其举行训练。 由此产生的架构称为 MASt3R(“匹配和立体 3D 重建”),在多个基准测试中均优于 DUSt3R。 为了获得像素精确的匹配,我们提出了一种从粗到细的匹配方案,在此方案中在多个尺度上执行匹配。 每个匹配步调都涉及从麋集特性图中提取相互匹配,这可能与直觉相反,这比计算麋集特性图自己要耗时得多。 我们提出的办理方案是一种更快的算法,用于查找相互匹配,速度几乎快两个数量级,同时进步了姿态估计质量。 总而言之,我们提出了三个重要贡献。 首先,我们提出 MASt3R,这是一种基于近来发布的 DUSt3R 框架构建的 3D 感知匹配方法。 它输出局部特性图,可实现高度准确且极其妥当的匹配。 其次,我们提出了一种与快速匹配算法相关的从粗到细的匹配方案,能够处理高分辨率图像。 第三,MASt3R 在几个绝对和相对姿势定位基准上显着优于开始辈的技术。
2.Relation work-当前的几类匹配方法

        关键点匹配:分三个不同的阶段举行:关键点检测、局部稳定描述和描述符空间中的近来邻搜索。 相比于传统方法如 SIFT ,今世方法已经转向基于学习的数据驱动方案来检测关键点 ,描述它们 或 两者同时举行。 总体而言,基于关键点的方法在许多基准测试中占主导职位,强调了它们在必要高精度和速度的使命中的长期代价。 然而,一个值得注意的问题是它们淘汰了与局部问题的匹配,即放弃了其整体性。 因此,SuperGlue 和类似的方法 发起在最后的配对步调中执行全局推理,利用更强的先验来引导匹配,同时将检测和描述留在本地。 虽然乐成,但它仍然受到关键点的局部性子及其无法对强烈的观点变革保持稳定的限定。
        稠密匹配: 与基于关键点的方法相比,半麋集和麋集方法为创建图像对应提供了不同的范例 ,考虑所有可能的像素关联。 很容易让人想起光流方法,它们通常采用从粗到细的方案来降低计算复杂性。 总的来说,这些方法旨在从全局角度考虑匹配,但代价是增加计算资源。 麋集匹配已被证实在具体的空间关系和纹理对于理解场景几何至关告急的场景中是有用的,但是这些方法仍然将匹配视为二维问题。
        相机姿态估计:该技术差异很大,但最乐成的策略,在速度、准确性和鲁棒性衡量方面,基本上都是基于像素匹配。 匹配方法的不绝改进促进了更具挑战性的相机姿态估计基准的引入,例如 Aachen Day-Night、InLoc、CO3D 或 Map-free ,所有这些都具有强烈的视点和/或照明变革。
3D Grounding matching:利用场景物理属性的先验来进步准确性或鲁棒性在已往已被广泛探索,但大多数先前的工作只是利用极线约束举行对应的半监督学习,而没有任何根本性的改变。 托夫特等人。 则提出通过使用从现成的单目深度猜测器获得的透视变更来校正图像来改进关键点描述符。 近来,姿势 或射线 的扩散,尽管严格来说并不匹配方法,但通过将 3D 几何约束纳入其姿势估计公式中,显示出了有希望的性能。 最后,近来的 DUSt3R 探索了从未校准图像的 3D 重建先验困难使命中恢复对应关系的可能性。 尽管没有颠末明确的匹配训练,但这种方法产生了有希望的结果,在无舆图排行榜上名列前茅。 我们的贡献是通过回归局部特性并显式训练它们举行成对匹配来实现这一想法。
3.Method

        给定两个图像
页: [1]
查看完整版本: MASt3R:从3D的角度来实现图像匹配(更新中)