在人工智能的浪潮中,Meta公司再次以Segment Anything Model 2(SAM 2)引领了图像和视频分割技术的新纪元。SAM 2的发布不但为计算机视觉范畴的研究和发展注入了新的活力,还预示着这一技术将在多个行业中找到广泛的应用场景。这一创新模型的推出,无疑标志着物体检测与分割范畴的一个新的里程碑。
SAM 2的诞生与背景
SAM 2的前身,即Segment Anything Model(SAM),于2022年4月首次发布。SAM的推出以其卓越的零样本分割能力迅速在计算机视觉范畴崭露锋芒。作为一个用于图像分割的根本模型,SAM无需对特定数据进行微调,即可应用于多种场景。这一特性使其在发布后的一年多时间里,受到了广泛的关注和赞誉。
在此根本上,Meta公司在2023年进一步推出了SAM 2。与SAM相比,SAM 2不但在图像分割的精度上有所提升,更重要的是,它将分割技术拓展到了视频范畴,实现了及时视频分割。这一突破性的进步,使得SAM 2成为首个用于及时、可提示的图像和视频对象分割的统一模型。 SAM 2的技术特点与创新
SAM 2之所以可以或许在图像和视频分割范畴取得如此显著的成就,主要得益于其独特的技术特点和创新设计。
起首,SAM 2采用了创新的流式内存(streaming memory)设计,使其可以或许按顺序处置惩罚视频帧。这种方法不但使SAM 2特别适合及时应用,还为各个行业开发了新的大概性。流式内存的设计答应模型通过自留意力和交叉留意力模块高效整合当前帧特征与汗青信息,从而实现视频帧的及时处置惩罚。
其次,SAM 2内置了记忆机制,使得模型可以跨帧追踪目标。这一机制包罗记忆编码器、记忆库和记忆留意力模块,它们共同协作,确保纵然在复杂的运动场景中,也能保持分割的连续性和正确性。当模型用于视频时,记忆组件存储有关对象和用户先前提示的信息,用户可以在视频的不同部门添加或删除提示,以改进模型的输出。
此外,SAM 2还新增了遮挡头,使其可以或许猜测对象在特定时间帧中的可见性。这一功能对于快速移动的物体尤其有效,因为它可以或许捕获物体的细节信息,纵然在物体被遮挡或部门不可见的环境下,也能实现正确的分割。