来自场景的姿势图像,以及来自同一场景的查询图像 Iq,视觉定位的使命是估计可以注册 Iq 到由数据库图像定义的世界坐标系的 6-DoF 相机位姿 P ∈ R3×4 。 P 由相机旋转 R ∈ R3×3 宁静移 t ∈ R3 体现。 方法概述: 图 2 概述了方法。 它包含两个主要组件:相对位姿回归网络和运动平均模块。 使用现成的图像检索方法 [3] 将查询图像 Iq 与前 K 个数据库图像配对,创建一组图像对
计算查询图像的绝对旋转。运动平均模块通过聚合来自全部可用对的绝对旋转估计来降低预测噪声。详细执行是使用四元数体现法计算平均旋转[126]。我们观察到,计算中值旋转可以进一步增强对噪声的稳健性,而额外的计算代价最小。 Camera center triangulation:绝对相机中心位置可以从两个图像的数据库与查询对进行三角丈量[39]。 与旋转平均雷同,我们使用全部有效对来计算平均交点。 固然交集的多少中位数无法通过分析求解并且通常需要迭代优化,但我们选择了更有效的方法。 我们使用简单的最小二乘法来最小化从相机中心到从相对位姿估计得出的每个平移方向的距离平方和。 通过矩阵的SVD求解。
4. Experiments(we focus on pose estimatation、ablation)