RoMo: Robust Motion Segmentation Improves Structure from Motion
媒介看起来像是一篇投稿CVPR的文章,不知道被哪个瞎眼审稿人拒了。同期还有一篇CVPR被接收的工作Segment Any Motion in Videos,看起来不如这篇直白(也可能是因为我先看过spotlesssplats的缘故),后面也应该一并介绍了的。总体来说:就是如何给sam2提供一个很好地prompt,获得视频序列的dynamic mask 分割效果。
RoMo: Robust Motion Segmentation Improves Structure from Motion
造成像素变化的缘故原由有两种:相机移动和物体移动,如何把这两种解耦并只获得物体移动的变化?
第一步
epipolar(RANSAC) 估计相机运动,RAFT估计光流变化,使用以下公式计算t到t’上的重投影误差:
https://i-blog.csdnimg.cn/direct/95dd201e49f044ff8d857d2f3c6435ad.png
并设置两个阈值:2v和0.01v,此中v是整体光流的平均移动速度。
https://i-blog.csdnimg.cn/direct/01b2b2b2e00c494996cde70e68e2281c.png
这里获得了两个大致的动态mask和静态mask。
第二步
训练一个简单的分割网络(2个iteration),损失函数如下:
https://i-blog.csdnimg.cn/direct/046a2dd009c74a0fb63fc8ab2a5dc8c6.png
此中,H就是网络估计出来的dynamic mask。G是从sam2的encoder中取的最后一层feature。
https://i-blog.csdnimg.cn/direct/8af02d474fd0474997c10d2e84a5fe56.png
对于公式(5),目的就是让上述mask中估计出来的动态位置,MLP的预测值肯定尽可能靠近1,静态位置MLP预测值尽可能靠近0。
由于上面是feature层面的操纵,所以分辨率小于原始分辨率,最后再使用SAM2做致密化。
Segment Any Motion in Videos
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
页:
[1]