大连全瓷种植牙齿制作中心 发表于 2024-9-5 14:28:14

AIGC 011-SAM第一个图像分割大模型-分割一切!

AIGC 011-SAM第一个图像分割大模型-分割一切!



0 论文工作

这篇论文介绍了 Segment Anything (SA) 项目,这是一个全新的图像分割任务、模型和数据集。SA 项目是一个具有里程碑意义的工作,它为图像分割范畴带来了新的机会和挑衅。该项目的模型和数据集将推动计算机视觉根本模型的研究,为构建更强盛、更通用的图像分割模型奠基根本。
Segment Anything (SA) 项目提出了一种新的图像分割任务、模型和数据集。研究职员利用一个高效的模型,在数据收集循环中构建了迄今为止最大的分割数据集,包含超过 10 亿个掩码,覆盖了 1100 万张经过答应和尊重隐私的图像。该模型被设计并训练成可提示的,因此它可以零样本迁移到新的图像分布和任务中。对多个任务的评估表明,该模型的零样天性能令人印象深刻,通常可以与或甚至超过先前完全监视的结果。为了促进计算机视觉根本模型的研究,Segment Anything 模型 (SAM) 和包含 10 亿个掩码和 1100 万张图像的对应数据集 (SA-1B) 已发布在 https://segment-anything.com 上。
CLIP-diffusion-SAM-LRM再有就是一些多模态大模型,可以发现大模型的本领开始在开始在不同的视觉任务上开始涌现。
从目前来看无论2d照旧3d方面都是大力出古迹。在十亿级别的数据上2d大模型本领得到很强的展现。在这一点上3d数据集就差很多,一方面数据量有限,别的一方面3d数据集都是合成数据集,对模型泛化本领照旧有限制。
接下来我们想分享的3d明白的论文,无论是nerf基照旧Gaussian基都是以CLIP大概SAM为根本。这真的是一件很酷的事情。
论文链接
github
objaverse
1论文方法


[*]任务、模型和数据集:
任务: SA 项目定义了一个新的图像分割任务,旨在构建一个可以处理各种图像和分割场景的通用模型。
模型: 论文提出了一种高效的分割模型,可以被提示(promptable),即可以零样本迁移到新的图像分布和任务中。
数据集: 该项目构建了迄今为止最大的分割数据集,包含超过 10 亿个掩码,覆盖了 1100 万张经过答应和尊重隐私的图像。
https://img-blog.csdnimg.cn/direct/e36c0a09b20a4e5eb50d8d06423c2055.png#pic_center
[*]模型特点:
可提示性: 模型被设计成可提示的,这意味着它可以根据不同的提示(例如点、框或文本描述)进行分割,无需重新训练。
零样本迁移: 模型可以零样本迁移到新的图像分布和任务中,无需额外的训练数据。
[*]评估结果:
论文在多个任务上评估了模型的本领,发现其零样天性能非常精彩,通常可以与或甚至超过先前完全监视的结果。
[*]贡献:
SAM项目定义了一个新的图像分割任务,为计算机视觉范畴的研究开辟了新方向。
SAM模型 (SAM) 和数据集 (SA-1B) 的发布,将推动计算机视觉根本模型的研究。
方法实现:
论文没有具体描述模型的具体实现细节,但夸大模型的可提示性和零样本迁移本领。zero-shot的本领重要照旧对比学习来展现的,即相似度。
论文中提到模型是高效的,可能使用了Transformer 大概其他高效的架构。
长处:
大规模数据集: SAM数据集的规模非常大,包含了丰富的图像和分割信息,有助于训练更强盛的模型。
可提示性: 模型的可提示性使其可以处理各种分割任务,提高了模型的通用性。
零样本迁移: 模型的零样本迁移本领,降低了模型应用的门槛,方便研究职员将其应用于新的任务和场景。
2 结果

这个可以去官网去体验。
https://img-blog.csdnimg.cn/direct/94acb94974104cf8bf66bf60fb451b44.png#pic_center

免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
页: [1]
查看完整版本: AIGC 011-SAM第一个图像分割大模型-分割一切!