Salesforce 发布开源大模型 xGen-MM

打印 上一主题 下一主题

主题 507|帖子 507|积分 1521


xGen-MM 论文

在当今 AI 技能飞速发展的期间,一个新的多模态 AI 模型悄然崛起,引起了业界的广泛关注。这个由 Salesforce 推出的开源模型—— xGen-MM,正以其惊人的全能特性和独特优势,在 AI 领域掀起一阵旋风。那么,xGen-MM 究竟强在哪里?让我们接着往下看。

xGen-MM








xGen-MM

xGen-MM 的主要功能有:

多模态理解:  xGen-MM 能同时处理和理解图像和文本信息,支持回复关于视觉内容的题目。

大规模数据学习:通过大量多样化的数据练习,xGen-MM 能捕捉到丰富的视觉和语言模式。

高性能生成: xGen-MM 不仅能理解输入信息,还能生成文本,比如根据─张图片编写描述或回复。

开源可访问: xGen-MM 的模型、数据集和代码是开源的,研究人员和开辟者可以自由地访问和使用这些资源来构建自己的应用。

微调本事:用户可以根据自己的特定需求对 xGen-MM 举行微调,顺应不同的应用场景。

性能参数






官方论文性能参数图

xGen-MM 拥有令人瞠目结舌的40亿参数,这个庞大的数字背后蕴藏着强盛的学习和推理本事。在众多基准测试中,xGen-MM 展现出了惊人的表现。特别是在视觉问答和 OCR 使命中,它的效果更是傲视群雄。在 TextVQA 使命中,xGen-MM 在 8-shot 评估中取得了66.9的高分,而在 COCO 字幕使命中更是斩获了90.6的良好效果。

xGen-MM 还采用了动态高分辨率图像编码策略,这使得它可以或许高效处理不同分辨率的图像,同时保持较低的盘算需求。这就像一位技艺精湛的摄影师,可以或许在保持画质的同时巧妙地压缩文件大小。这种策略大大提升了模型的可扩展性和效率,为其在大规模应用中奠定了坚实基础。

xGen-MM 还 underwent 安全性微调,这进一步增强了模型的可靠性。通过减少幻觉等有害举动,xGen-MM 在保持高精度的同时,更加安全可靠。

技能原理




技能原理


xGen-MM 的强盛并非偶然,而是源于其独特的技能创新。它采用了Perceiver架构来高效处理图像数据,可以或许快速准确地捕捉图像中的关键信息。xGen-MM 还巧妙地结合了大型语言模型(如Phi-3),这使得它在处理文本信息时如鱼得水。

xGen-MM 的练习过程也采用了统一的多模态学习目的,通过单一的自回归丧失函数来练习模型。这种方法大大简化了练习过程,同时也提高了模型的性能;而且 xGen-MM 还在大规模多样化的数据集上举行练习,这让它拥有了丰富的知识储备和强盛的泛化本事;末了,通事后续优化方法(如DPO),xGen-MM不断提升自身的安全性和可靠性。

免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
回复

使用道具 举报

0 个回复

正序浏览

快速回复

您需要登录后才可以回帖 登录 or 立即注册

本版积分规则

徐锦洪

金牌会员
这个人很懒什么都没写!

标签云

快速回复 返回顶部 返回列表