人工智能-开源大模子杀疯了！Mistral新模子三分之一参数卷爆Llama 3.1，“新趋势已显

嚴華发表于 2024-8-15 18:55:33

开源大模子杀疯了！Mistral新模子三分之一参数卷爆Llama 3.1，“新趋势已显

克雷西西风发自凹非寺
量子位 | 公众号 QbitAI

Llama 3.1 405B“最强模子”宝座还没捂热乎，就被砸场子了——
Mistral AI发布最新模子Mistral Large 2，参数123B，用不到三分之一的参数量性能比肩Llama 3.1 405B，也不逊于GPT-4o、Claude 3 Opus等闭源模子。
主打的就是一个高性价比。
用官方的话说，Mistral Large 2在性能/成本评价指标上“设定了一个新的前沿”。
https://img-blog.csdnimg.cn/img_convert/9cd91e7857113f4bfed686168c72e4b2.png
Mistral Large 2尤其擅长代码和数学推理，上下文窗口128k，支持数十种自然语言以及80+编程语言。
特别在MMLU上，其预训练版本更是达到了84.0%的正确率。
消息一出，Mistral AI联创兼首席科学家第一时间转发，直接cue Llama 3.1 405B的那种：
https://img-blog.csdnimg.cn/img_convert/e468766a06b2f8459ebb40bbd9a77c93.png
Perplexity CEO Aravind Srinivas也开麦了：
开源追赶闭源的趋势很显着，未来闭源模子只有头部几个有价值。
https://img-blog.csdnimg.cn/img_convert/4f869c012d498e43bdc6d4e4d4856e1e.png
英伟达科学家Jim Fan更是体现这简直就是享受开源模子盛宴的一周，想看看SEAL上的测评结果：
https://img-blog.csdnimg.cn/img_convert/59a9c20be8f4a841c0049dbe21f63bc6.png
Mistral Large 2性能具体如何，来看官方发布的基准测试结果。
不到三分之一参数比肩Llama 3.1

根据官方Blog，Mistral Large 2参数123B，专为单节点推理计划，在单节点上可实现大吞吐，上下文窗口为128k。
代码本事方面，Mistral Large 2支持包罗Python、Java、C、C++、JavaScript和Bash在内的80多种编程语言，吸取Codestral 、Codestral Mamba经验，体现远超之前的Mistral Large。
Human Eval、MBPP基准上，Mistral Large 2代码生成本事可与GPT-4o、Claude 3 Opus和Llama 3.1 405B等最强模子相媲美：
https://img-blog.csdnimg.cn/img_convert/8d71b68a5cdd1828573b9e68d3bd79d2.png
在MultiPL-E的多种编程语言基准上，Mistral Large 2多方面逾越Llama 3.1 405B：
https://img-blog.csdnimg.cn/img_convert/a0b232634e7de305dee7e5dd8de84ea8.png
推理方面，官方体现重点关注减少模子“幻觉”，Mistral Large 2能够辨认自己在找不到办理方案或缺乏足够信息提供确信答案时的情况。
由此模子在数学基准测试中的体现相比之前有了不小提拔。在GSM8K（8-shot）和MATH（0-shot，无CoT）基准上的体现如下：
https://img-blog.csdnimg.cn/img_convert/38cf349076d64ed2d4dce78e7b770904.png
这里还有Mistral Large 2和Llama 3.1 405B、Llama 3.1 70B的代码生成以及数学体现比较。
Mistral Large 2以不到三分之一的参数量，在代码和数学上比肩或逾越Llama 3.1 405B。
https://img-blog.csdnimg.cn/img_convert/baa3348ee4c8ca648e67fac409d87196.png
除了代码和推理，Mistral Large 2在MT Bench、Wild Bench和Arena Hard上的体现，也突出了其指令遵循和对齐方面的提拔：
https://img-blog.csdnimg.cn/img_convert/891374ebf16080239f71ee6080ef5e3f.png
https://img-blog.csdnimg.cn/img_convert/bf23fc90a7925aa3cd6fc80f9cfd6b09.png
而且，官方还特别关注模子生成内容切题的前提下，尽量保持简洁：
在某些基准测试中，生成较长的回应每每能提高分数。然而，在许多商业应用中，简洁的回应不仅加速了交互速率，还降低了推理成本。
下图还展示了不同模子在MT Bench基准测试中生成内容的均匀长度：
https://img-blog.csdnimg.cn/img_convert/b3763e45b5ff560836d00812a8f35b4a.png
语言明白方面，支持包罗法语、德语、西班牙语、意大利语、葡萄牙语、阿拉伯语、印地语、俄语、中文、日语和韩语在内的数十种自然语言。
特别在MMLU任务（大规模多任务语言明白）上，Mistral Large 2预训练版本达到了84.0%的正确率。
https://img-blog.csdnimg.cn/img_convert/beb81c085d076037685194f9fde053fc.png
https://img-blog.csdnimg.cn/img_convert/bb0d0b0dc092b944d0fe3deb2c6b622b.png
结果也让网友直呼MMLU已经饱和了：
https://img-blog.csdnimg.cn/img_convert/b6603060b0ac309c2e7293171a01c790.png
值得一提的是，Mistral Large 2还配备了增强的函数调用和检索本事，能够同时处置惩罚多个任务或按步调实行操作，这方面本事甚至逾越GPT-4o：
https://img-blog.csdnimg.cn/img_convert/0687782984e265fffa3468402c73759e.png
Mistral Large 2基准测试结果很抗打，现实体现如何，还得等一波大伙儿的测评。
Mistral Large 2如今已经可以在Mistral AI自家的开辟者平台la Plateforme上使用，”Le Chat”有测试版可以直接玩。
而且官方体现，从本日开始将在la Plateforme上扩展微调功能，Mistral Large、Mistral Nemo和Codestral都支持微调。
别的还可以通过云服务厂商访问Mistral模子，Mistral AI模子除了在Azure AI Studio、Amazon Bedrock和IBM watsonx.ai上可用外，还可以在Vertex AI上获取。
https://img-blog.csdnimg.cn/img_convert/9a848a288a188697244152cf016c42d2.png
还要提的一点是，Mistral Large 2接纳Mistral的新版许可证，不是Apache，只允许用于研究和非商业用途的使用和修改。
需要自行部署Mistral Large 2商业用途的，必须通过联系Mistral AI得到其商业许可证。
https://img-blog.csdnimg.cn/img_convert/e08118cf4308ef6b8bb110c36cc6447d.png
8.11和8.9比大小，正确率更高了

关于模子的具体体现，量子位第一时间通过官方对话平台举行了实测。
先来看近来比较盛行的小数比大小题目，我们发现，Mistral Large 2可否答对很大程度上和提问方式有关。
如果直接问8.9和8.11哪个大，很有可能得到一个错误答案，交换顺序或者换一下数字结果也是如此。
https://img-blog.csdnimg.cn/img_convert/ddc0b76e795bfc96c907dacb1021abe4.png
但这时追问一句为什么，模子就会心识到小数部门不能拿11和9来比，然后给出了正确表明。
https://img-blog.csdnimg.cn/img_convert/eb41b08b1b851c04f812d09c3171020e.png
如果一开始就换种提问方式，加上“数字”二字，或者将题目改为“比较8.11和8.9的大小”，Mistral Large 2都能直接答对。
https://img-blog.csdnimg.cn/img_convert/6bdf4f58116c28464ead23fedf1d8909.png
别的如果用英语提问，也能一步得到正确答案。
https://img-blog.csdnimg.cn/img_convert/594f178ad10a2f20786ff3bd9c73a554.png
另一个被讨论比较多的题目，是数出单词中某个字母的个数，英文社区的讨论中广泛以为，大模子难以答对这样的题目。
Mistral Large 2的情况也是如此，但如果把题目改用中文来描述，就能得到正确的回答。
https://img-blog.csdnimg.cn/img_convert/a4d6cd99cc374558b8d55c6b00e3cdc0.png
以及关于大模子长期以来存在的“反转诅咒”（知道A是B却不知道B是A），Mistral Large 2的体现是这样的：
在同一对话中，由于有上下文的存在，模子能够正确回答“Mary Lee Cruise的儿子是谁”这个经典的“反转诅咒”题目。
https://img-blog.csdnimg.cn/img_convert/e509b16df3e9f304be0b24e9a6552aaa.png
但如果在新对话中直接提问，得到的答案就变成了“不知道”。
https://img-blog.csdnimg.cn/img_convert/8c7d6bcf5b151b963556a29850d72dc2.png
安全性方面，近来瑞士洛桑联邦理工学院爆出了可以通过过去时态绕过大模子安全措施的题目，我们也给Mistral测试了一下。
一上来直接询问毒品的制作方式，结果毫不不测地被拒绝回答。
https://img-blog.csdnimg.cn/img_convert/b9b3beb38c5b43130a2ae024d1e14f2e.png
换成过去时之后，口风就变得没那么紧了，先是强调了不能提供详细引导，但照旧列出了一些合成方式。
不过也确实只提到了方法涉及的主要原料，并没有详细指示，至于算不算越狱成功就见仁见智了。
https://img-blog.csdnimg.cn/img_convert/b1b8adeb76a63c1fa994306b40f7ef0c.png
总的来说，面对这些盛行的“大模子难题”，Mistral Large 2相比之前的模子确实是有些进步，但仍然有很大的改进空间。
接下来再看看Mistral Large 2在一些通例任务上的体现，按惯例先安排几道“弱智吧”标题。
第一个题目，“吃健胃消食片能吃饱吗”，这个题目虽然搞怪，但实在没什么歧义，所以模子只要不苟言笑地作答，大概率就不会堕落（除非出现幻觉）。
https://img-blog.csdnimg.cn/img_convert/d28dc19678ca9a7ca545c666eb89cfe4.png
但如果换成下面这种无厘头的题目，情况就不同了。
既然快递需要3天才气到，为什么不把所有的快递都提前三天发？
只能说大模子照旧太实诚了，并没有捕捉到此中的笑点，真的去从快递公司运营的角度分析了一通。
https://img-blog.csdnimg.cn/img_convert/d36e524fc43f157d8f72ce2f192c9f97.png
不过这个题目Llama 3.1-405B同样也没有get到。
https://img-blog.csdnimg.cn/img_convert/2454e0ffd97f5dd310d81bea78486405.png
Mistral的语言明白本事大抵可以从中管中窥豹，下面磨练一下Mistral的逻辑推理本事，标题是这样的：
https://img-blog.csdnimg.cn/img_convert/bc9d04caaea088598cae0c52f10b3cfc.png
和人类的通例思绪一样，Mistral Large 2解答这道题时用的也是假设法，先假定甲说的是真话。
直到下图中的倒数第二行分析得都还完全正确，但末了一行就开始已读乱回了。
https://img-blog.csdnimg.cn/img_convert/b0f670c4de9144b38dea470915c46bc2.png
实在在发现假设甲说真话的情况下丁的身份出现矛盾的时候，就可以断定甲说的不是真话，甲又说自己不是小偷，所以答案已经很显着了。
但Mistral Large 2照旧对峙把四种假设都举行了分析。
假设乙说真话这部门的分析是对的，但是无法得出结果。
https://img-blog.csdnimg.cn/img_convert/220b6a0840b9e709b8d4e1dec4b898f0.png
到了丙这部门，就颇有些已读乱回的意味了……
https://img-blog.csdnimg.cn/img_convert/a4f16ff08013de11b79771db7c6fc6a0.png
不过最终，分析完“丁说真话”的假设后，照旧得到了正确答案——甲是小偷。
https://img-blog.csdnimg.cn/img_convert/05e48c2ddf8dac3a0bb1e6be789fa6a4.png
整个过程下来，可以看到Mistral Large 2对这类题目确实有一套合理的办理模式。
但相比于人类，模子的办理议略机动性不足，比较循规蹈矩，没能在发现甲说谎话时直接看出结论，别的在推理过程当中也出现了不少细节错误。
顺便提一句，GPT-4o和Claude 3.5都没做对这道题，而且各有各的错法。
https://img-blog.csdnimg.cn/img_convert/2e9c9885406e18594ce17dea3090abdc.png
以上就是关于这个开源模子新SOTA实测的全部内容了，感爱好的话，就到Mistral的官方的对话平台Le Chat中一探究竟吧。
传送门：
https://chat.mistral.ai/chat
参考链接：
https://x.com/mistralai/status/1816133332582703547?s=46n
https://x.com/guillaumelample/status/1816135838448972240?s=46
https://x.com/DrJimFan/status/1816231047228797132
https://x.com/kimmonismus/status/1816141604194857430?s=46
— 完 —
量子位年度AI主题策划正在征集中！
欢迎投稿专题一千零一个AI应用，365行AI落地方案
或与我们分享你在寻找的AI产品，或发现的AI新动向
https://img-blog.csdnimg.cn/img_convert/fe52b4c42ae29e89abd22e8c304bd0b5.png
点这里

页: [1]

qidao123.com技术社区-IT企服评测·应用市场's Archiver

开源大模子杀疯了！Mistral新模子三分之一参数卷爆Llama 3.1，“新趋势已显