字节推出统一多模态模子 BAGEL,GPT-4o 级的图像天生能力直接开源了!

[复制链接]
发表于 2025-6-16 10:53:32 | 显示全部楼层 |阅读模式

字节推出的 BAGEL 是一个开源的统一多模态模子,他们直接开源了GPT-4o级别的图像天生能力。(轻松拿捏“万物皆可吉卜力”玩法~)。可以在任何地方对其进行微调、提炼和摆设,它以开放的形式提供与 GPT-4o 和 Gemini 2.0 等专有系统相当的功能,通过可以或许实现准确、准确和逼真的输出的原生多模态架构解锁有用且有代价的图像天生。
结果展示

谈天



BAGEL 是一个统一的天生和理解模子,它基于大型语言模子进行初始化预练习,从而为其提供了推理和对话的基础能力。BAGEL 可以处理图像和文本的混合格式输入和输出。
天生结果



BAGEL 已基于大规模交错视频和网页数据进行预练习,使其可以或许天生高保真、逼真的图像、视频帧或交错的图文内容。交错数据经过得当的对齐,可以或许构建自然的多模态思维链,使模子可以或许天生视觉输出。
编辑



通过对交错视频片段进行预练习,BAGEL 可以或许自然地学习保留视觉特性和精致细节,同时还能捕获视频中复杂的视觉运动,从而高效地进行图像编辑。凭借源自视觉语言模子的强大推理能力,BAGEL 的智能编辑能力轻松超越了基础编辑任务。
风格转换



凭借对视觉内容和风格的深刻理解,BAGEL 可以轻松地将图像从一种风格转换为另一种风格,乃至可以将其转换为完全差别的风格,只需利用最少的对齐数据即可。
作品



BAGEL 从视频、网络和语言数据中学习广泛的知识和能力,使其可以或许进行推理、建模物理动态、猜测未来帧等等——所有这些都通过统一的多模态界面实现。凭借其组合能力,BAGEL 可以无缝地进行多轮对话。
相干链接



  • 主页:https://bagel-ai.org/
  • 论文:https://arxiv.org/abs/2505.14683
  • 模子:https://huggingface.co/ByteDance-Seed/BAGEL-7B-MoT
方法

BAGEL 采用混合 Transformer-专家 (MoT) 架构,以最大限度地提升模子从丰富多样的多模态信息中学习的能力。遵循同样的容量最大化原则,它利用两个独立的编码器来捕获图像的像素级和语义级特性。团体框架遵循“下一组标记猜测”范式,此中模子被练习为猜测下一组语言或视觉标记作为压缩目的。


BAGEL 通过对涵盖语言、图像、视频和网络数据的数万亿个交错多模态标记进行预练习、连续练习和监督微调来扩展 MoT 的容量。它在标准理解和天生基准上超越了开放模子,并展示了先辈的上下文多模态能力,例如自由格式图像编辑、未来帧猜测、3D 操作、天下导航和序列推理。


随着我们扩展 BAGEL 的预练习,添加更多多模态标记,我们观察到理解、天生和编辑任务的性能连续提升。差别的能力在差别的练习阶段显现——多模态理解和天生能力出现较早,随后是基础编辑能力,而复杂的智能编辑能力则在后期显现。这种阶段性希望表明了一种新兴模式,即高级多模态推理创建在美满的基础技能之上。消融研究进一步表明,将 VAE 与 ViT 特性相结合可以显著提升智能编辑能力,这凸显了视觉语义语境在实现复杂多模态推理方面的紧张性,并进一步支持了其在高级能力涌现中的作用。
基准

理解






免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
继续阅读请点击广告

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

×
回复

使用道具 举报

© 2001-2025 Discuz! Team. Powered by Discuz! X3.5

GMT+8, 2025-7-22 02:02 , Processed in 0.238961 second(s), 34 queries 手机版|qidao123.com技术社区-IT企服评测▪应用市场 ( 浙ICP备20004199 )|网站地图

快速回复 返回顶部 返回列表