剑指OpenAI,Ai2开源行业最强Molmo系列大模型,公开全部细节,性能超越Clau ...

打印 上一主题 下一主题

主题 912|帖子 912|积分 2736

剑指OpenAI,Ai2开源行业最强Molmo系列大模型,公开全部细节,性能超越Claude3.5!

原创 AI产品汇 AI产品汇 2024年09月29日 07:20 广东
打造一个有温度、有趣味、专业的全栈式AI&AIGC交流社区,
用心写好每一篇文章!


  近年来,多模态大语言模型得到了快速的发展。然而,这些视觉语言模型(VLM)中性能最好的仍然是闭源的,模型权重、数据和代码都没有公开发布。当前根本上已经形成了OpenAI一家独大的局面。固然GPT-4o和o1模型很牛逼,但是又有几个人能用得起?大模型是智能化时代的焦点武器,它的本领应该赋能给全部人,而闭源在一定水平上会减缓这个进程。可喜的是,艾伦AI研究院将它们比肩Claude3.5的大模型开放了出来,作者提出了Molmo(多模态开放语言模型)系列开始进的开放VLM,这些VLM具有已发布的模型权重和已发布的视觉语言训练数据,而不依赖于其它VLM(包括专有VLM)的合成数据。这是一个新的VLM系列,在开放性方面处于开始进的水平。 Molmo家属中最好的incluass 72B模型不但在开放权重和数据模型类别中优于其它模型,而且在学术基准和人类评估方面也优于GPT-4o、Claude 3.5和Gemini 1.5等闭源模型。作者将在不久的将来发布全部模型权重、字幕和微调数据以及源代码。


项目主页-https://molmo.allenai.org/
模型链接-https://huggingface.co/collections/allenai/molmo-66f379e6fe3b8ef090a8ca19
论文链接-https://arxiv.org/pdf/2409.17146



01-艾伦AI研究院简介


    Allen Institute for AI,中文名为艾伦人工智能研究所,是一家位于美国的非营利性研究机构。该研究所建立于2014年,由微软联合首创人保罗·艾伦(Paul Allen)创立,旨在推动人工智能范畴的发展和应用。
    艾伦人工智能研究所的研究范围涵盖了人工智能的多个方面,包括自然语言处理、计算机视觉、呆板学习、呆板人技术等。研究所致力于解决一些具有挑战性的题目,如提高呆板翻译的准确性、开发更智能的呆板人以及改进图像识别技术等。
    此外,艾伦人工智能研究所还关注人工智能在实际应用中的推广和遍及。他们与各个行业的合作搭档合作,将研究结果应用于实际场景,如医疗、教诲、交通等范畴。通过这些合作,研究所希望可以或许为社会带来更多的便利和创新。
    总之,艾伦人工智能研究所是一家致力于推动人工智能发展和应用的领先机构,他们的研究工尴尬刁难于人工智能范畴的发展具有重要意义。
02-Molmo背景简介


    近年来,多模态大语言模型得到了快速的发展。然而,这些视觉语言模型(VLM)中性能最好的仍然是闭源的,模型权重、数据和代码都没有公开发布。当前根本上已经形成了OpenAI一家独大的局面。
    为了促进科学探索,很多研究工作试图在开源模型中再现类似的本领。早期的工作,以LLaVA为例,产生了完全开放的权重和训练数据,但现在明显落后于开始进的技术。最近,更强大的开放权重模型趋向于不那么开放的数据:训练数据大概是专有的,大概在发布的环境下,严峻依赖专有系统生成的合成数据,例如,模型在ShareGPT4V等数据集上训练,ShareGPT4V利用GPT-4V生成大量详细的图像标题。因此,由此产生的VLM实际上是专有VLM的提炼,科学界仍然缺乏怎样从头开始构建高性能VLM的底子知识。
03-Molmo大模型简介
,时长02:15
    在这项工作中,作者提出了Molmo(多模态开放语言模型)系列开始进的开放VLM,这些VLM具有已发布的模型权重和已发布的视觉语言训练数据,而不依赖于其它VLM(包括专有VLM)的合成数据。这是一个新的VLM系列,在开放性方面处于开始进的水平。
      作者的主要创新是提出一种新颖的、高度详细的图像字幕数据集,该数据集完全利用基于语音的描述从人类注释者那里网络。为了实现广泛的用户交互,作者还引入了一种多样化的数据集组合,用于微调,包括野外问答和创新的2D指向数据。这个结果是通过一个简单的训练流程实现的,其中连接了一个独立预训练的现成视觉编码器和语言模型,并联合训练得到的VLM。从新网络的详细、高质量、密集的图像描述数据集中生成字幕。颠末联合训练,并利用监督微调来生成指令遵循模型。
    与其它今世开放式VLM不同,该模型制止了多个预训练阶段,这些阶段涉及冻结模型的各个部分,并依赖于大规模弱配对的图像文本数据,通常比我们的高质量数据大三个数量级。该方法的成功取决于对模型架构细节的仔细选择、颠末良好调整的训练流程,最重要的是新数据集的质量,统称为PixMo(Molmo的像素)。
    Molmo家属中最好的incluass 72B模型不但在开放权重和数据模型类别中优于其它模型,而且在学术基准和人类评估方面也优于GPT-4o、Claude 3.5和Gemini 1.5等闭源模型。作者将在不久的将来发布全部模型权重、字幕和微调数据以及源代码。
04-Molmo大模型
04.01-开放式问答本领

,时长10:11
04.02-点集分割SAM本领

,时长11:03
04.03-物体计数本领

,时长08:26
04.04-呆板人图像理解本领

,时长10:54
04.05-赋能AR眼镜本领

,时长03:23
04.06-呆板人理解&操控本领

,时长04:15
05-Molmo大模型整体流程


    上图展示了Molmo模型的整体架构。该模型架构遵循将语言模型与视觉编码器相结合的简单标准设计,它由四个部分组成:


  • 1)将输入图像转换为一组多尺度、多裁剪图像的预处理器
  • 2)将每个图像独立映射到一组视觉标志的ViT图像编码器
  • 3)利用MLP将视觉标志投影到语言模型的输入维度的连接器,然后将视觉标志合并以淘汰其数量;
  • 4)仅用于解码器的Transformer LLM
    总而言之,它的强大性能是颠末良好调整的训练管道和我们新的PixMo数据的结果。
06-Molmo大模型实现细节
06.01-模型训练过程


    从独立的预训练视觉编码器和LLM开始,整个训练过程很简单,只包括两个阶段:1)利用PixMo-Cap(我们新网络的字幕数据)进行多模态预训练以生成字幕;2)利用学术数据集和新网络的监督PixMo系列数据集的混淆进行监督微调。全部模型参数在两个阶段都会更新。作者并没有倒霉用RLHF。
第一阶段:字幕生成。在这个阶段,作者利用随机初始化的连接器将视觉编码器和LLM连接起来,并在字幕生成任务上训练全部模型参数。
第二阶段:监督微调。颠末字幕训练后,作者在监督训练数据的混淆上微调全部模型参数。这种混淆包括常见的学术数据集和几个新的PixMo数据集。
06.02-性能评估基准


    视觉语言模型评估正在迅速发展,新的学术基准不断出现。这些基准在评估特定技能方面结果良好,但要想在这些方面取得好成绩,通常需要以特定基准的风格回答题目。这些答案通常很短,在其它环境中结果不佳。因此,学术基准只能提供模型性能的部分图景。为了增补这些基准,作者还进行了人工评估,使我们可以或许根据用户偏好对模型进行排名。
    作者还制止在声称的“零样本”性能(通常针对封闭数据模型报告)和在基准训练集上明确训练的模型的监督性能之间进行强烈区分。监督训练和零样本传输之间的区别是含糊的,由于可以筹谋新的数据源,作为任何给定基准的文字训练数据的有效署理。当训练数据未公开时,社区无法评估零样本转移索赔。
    作者提出的Elo人类偏好评估利用了15k个图像和文本提示对。作者查询了每个VLM的相应,并将全部VLM配对的图像-文本相应三元组呈现给870名人类注释者,他们给出了成对偏好排名,在27个模型中进行了统共325k次成对比力,使其成为迄今为止对多模态模型进行的最大的人类偏好评估。作为参考,其ELO排名是基于视觉模型比谈天呆板人竞技场(LMSYS)多3倍的投票。
07-Molmo大模型性能评估
07.01-11个基准评估结果


    左图展示了该模型与多个SOTA模型(Claude3 Haiku、Qwen VL2 72B等)在11项学术基准上面的均匀得分。右图展示了根据作者提供的人类偏好评估得出的Elo评级结果。通过观察与分析,我们可以发现:Molmo模型在11个评估基准与人类偏好评估上面都获得最佳的得分结果,这在一定水平上证实了实在力!
07.02-模型开放性比力


    上图展示了该模型与多个SOTA的VLM模型开放性比力结果。作者基于三个模型组件(VLM及其两个预训练组件、LLM骨干和视觉编码器)的两个属性(开放权重、开放数据和代码)来表征VLM的开放性。除了开放与封闭,作者还利用“蒸馏”标签来表示用于训练VLM的数据包括由不同的专有VLM生成的图像和文本,这意味着如果不依赖于专有VLM,模型就无法复制。 
    通过观察与分析,我们可以发现:与其它模型相比,Molmo系列大模型不但开源了模型权重、训练数据集,而且还开源了训练代码和评估基准等。真正让小白可以从头开始搭建,它的出现势必会缩小开源模型与闭源模型之间的差距!
07.03-客观指标评估结果


    上表展示的学术基准测试结果涵盖了十个常用数据集和一个新网络的计数基准Flickr Count,该基准偏重于在比CountBenchQA更具挑战性的自然图像中计数。作者将模型分为四组:(顶部)只能通过API调用访问的专有模型、具有已发布权重但封闭数据的(中上部)模型、具有发布权重和已发布训练数据的(中心下部)模型,留意到其中一些模型是通过对专有VLM生成的合成数据进行训练从其他模型中提取的(†),以及(底部)Molmo模型系列。通过观察与分析,我们可以得出以下的初步结论:


  • 最有效的Molmo模型MolmoE-1B基于作者完全开放的OLMoE-1B-7B混淆专家LLM,在学术基准和人类评估方面几乎与GPT-4V的性能相匹配。
  • 两款Molmo-7B型号在学术基准和人类评估中均在GPT-4V和GPT-4o之间体现良好,在这两个基准上都明显优于最近发布的Pixtral 12B型号。
  • 一流的Molmo模型Molmo-72B获得了最高的学术基准分数,在人类评估中排名第二,仅次于GPT-4o。
  • 最好的Molmo型号也优于几个开始进的专有系统,包括Gemini 1.5 Pro和Flash以及Claude 3.5 Sonnet。
08-Molmo大模型结果展示


图8.1-Molmo大模型结果展示1


图8.2-Molmo大模型结果展示2


图8.3-Molmo大模型结果展示3


图8.4-Molmo大模型结果展示4


图8.5-Molmo大模型结果展示5


图8.6-Molmo大模型结果展示6


图8.7-Molmo大模型结果展示7


图8.8-Molmo大模型结果展示8

免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
回复

使用道具 举报

0 个回复

倒序浏览

快速回复

您需要登录后才可以回帖 登录 or 立即注册

本版积分规则

郭卫东

金牌会员
这个人很懒什么都没写!
快速回复 返回顶部 返回列表