天津储鑫盛钢材现货供应商 发表于 2024-8-26 13:05:47

Llama 3“智商”测试:英文提示表现亮眼,中文不完美但差能人意!

大家好,我是木易,一个持续关注AI范畴的互联网技能产品经理,国内Top2本科,美国Top10 CS研究生,MBA。我坚信AI是平凡人变强的“外挂”,所以创建了“AI信息Gap”这个公众号,专注于分享AI全维度知识,包罗但不限于AI科普,AI工具测评,AI服从提拔,AI行业洞察。关注我,AI之路不迷路,2024我们一起变强。
一些结论

   
[*] 语言支持:Llama 3支持中文,但并不完美。官方提到预训练数据集中有超过5%的非英语数据,覆盖超过30种语言,但重要语料库是英文的。Meta筹划将来优化多语言支持。
[*] 使用区域:Llama 3是一个开源模型。Meta AI平台提供了Llama 3的直接使用方式,服务区域包罗美国和其他13个国家。
[*] 测试结果:在英文提示下,Llama 3表现亮眼。但在中文提示下,表现不稳固,有时会出现幻觉。
关于Llama 3的FAQ

Llama 3支持中文吗?

先说结论:支持,但又不是完美支持那种。
Meta官方并没有明确分析Llama 3模型所支持的语言种别,但在官方博文中确实也提到了用于预训练的数据集中,有超过5%的数据好坏英语数据,包罗了30种语言。实测Llama 3是能够理解中文的提示词的,但在中文输出方面,略有不足,毕竟预训练语料库大多是英文的。
   To prepare for upcoming multilingual use cases, over 5% of the Llama 3 pretraining dataset consists of high-quality non-English data that covers over 30 languages. However, we do not expect the same level of performance in these languages as in English.
并且,Meta也表示接下来会着手优化多模态、多语言支持、更长的上下文窗口等方面。
   Over the coming months, we’ll release multiple models with new capabilities including multimodality, the ability to converse in multiple languages, a much longer context window, and stronger overall capabilities.
Llama 2支持中文吗?

在上一代的Llama 2相干论文里,Meta就明确表示了和上述Llama 3描述类似的结论。Llama 2的训练数据重要为英语,但也包含了其他27种语言。从下面的表格里可以看过,中文语料(zh)占比0.13%。
冷知识:zh是ISO 639-1标准中对中文的两字母缩写代码。在这个标准中,大多数语言都有各自的两字母代码,zh实际上是 "Zhōngwén" 的缩写。
   Language Identification. While our pretraining data is mostly English, it also includes text from a small number of other languages. Table 10 shows the distribution of languages in our corpus, subsetted to those found in more than 0.005% of the documents. Our analysis uses the fastText (Bojanowski et al., 2016) language identification tool and a threshold of 0.5 for the language detection. A training corpus with a majority in English means that the model may not be suitable for use in other languages.

https://i-blog.csdnimg.cn/blog_migrate/18b9cd47eec61b9cbf068264cad765a2.png
Llama 3可以在哪些区域使用?

起首,Llama 3是一个开源模型,这意味着全部的个人用户/开辟者/研究职员都可以直接下载Llama 3全部的代码及相干资料。但运行这样的LLM模型所需要的硬件资源要求很高,对于个人用户来说是一个挑战。为此,Meta也将Llama 3接入了Meta AI,地址是https://www.meta.ai/,用户可以直接使用Llama 3进行对话,甚至无需登录。同时,我们也可以在Facebook, Instagram, WhatsApp, Messenger这些应用里直接使用Meta AI。
Meta AI服务区域包罗以下国家。
   We’re rolling out Meta AI in English in more than a dozen countries outside of the US. Now, people will have access to Meta AI in Australia, Canada, Ghana, Jamaica, Malawi, New Zealand, Nigeria, Pakistan, Singapore, South Africa, Uganda, Zambia and Zimbabwe — and we’re just getting started.
    Meta AI提供服务的区域:美国、澳大利亚、加拿大、加纳、牙买加、马拉维、新西兰、尼日利亚、巴基斯坦、新加坡、南非、乌干达、赞比亚和津巴布韦

https://i-blog.csdnimg.cn/blog_migrate/8a279832cadcb6548718d42d4e38a113.png
Llama 3模型“智商”测试

小试牛刀

起首来测试一道经典标题,之前测试中,GPT-4、Claude 3、讯飞星火和通义千问均通过了这个测试,而谷歌Gemini Pro,Gemini Ultra,文心一言以及Kimi Chat回复错误,未通过测试。详情可以看我之前的这篇文章:Claude 3有点东西!这个看似简朴的问题只有GPT-4和Claude 3回复正确!通义千问和讯飞星火表现同样亮眼!。
   英文标题:If there are 1000 books in a room and I read 2, how many books are still in the room? Answer succinctly
    中文标题:如果一个房间里有1000本书,我读了2本,房间里还有多少本书?请轻巧回复。
英文提示词提问


https://i-blog.csdnimg.cn/blog_migrate/4648eebf8c325add4343cdb4e680a787.png
中文提示词提问


https://i-blog.csdnimg.cn/blog_migrate/8b1be65d61b314751b50e6bf8160743a.png
结论

在英文提示词下,回复完全正确,逻辑也清楚;但中文提示词下明显出现了幻觉,并且Meta AI会提醒:I am still improving my command of non-English languages, and I may make errors while attempting them. I will be most useful to you if I can assist you in English.
进阶挑战

   英文标题:You have three switches on the ground floor, each of which controls one of three light bulbs upstairs, but you don't know which switch corresponds to which bulb. You can only go upstairs once. How should you operate the switches and then go upstairs one time to determine which switch corresponds to each bulb?
    中文标题:你有三个开关在楼下,它们各自控制楼上的三个灯泡,但你不知道哪个开关对应哪个灯泡。你只能上楼一次。你该怎样操作开关并上楼一次,以确定每个开关对应哪个灯泡?
标题分析

这是一个经典的逻辑推理题,对于LLM模型来说有肯定的难度,因为不仅需要处理纯逻辑运算,还需要关联到物理天下中的常识——灯泡使用后会发热这一究竟。要确定楼下三个开关各自控制的楼上三个灯泡,可以接纳以下方法:起首,开启第一个开关一段时间,使相应的灯泡变热后关闭;然后立即打开第二个开关,并上楼检查。此时,温热的灯泡表示是由第一个开关控制的,正在亮着的灯泡由第二个开关控制,而冷的灯泡则是由第三个开关控制。这样一次上楼即可通过触感辨认每个开关对应的灯泡。
英文提示词提问


https://i-blog.csdnimg.cn/blog_migrate/16cf3f63a052479a5d831ea025db4e3e.png
   A classic puzzle! Here's the solution:
Step 1: Operate the switches
Turn switch 1 to ON for 5 minutes.
Turn switch 1 to OFF.
Turn switch 2 to ON.
Turn switch 3 to ON for 5 seconds.
Turn switch 3 to OFF.
Step 2: Go upstairs
Observe the bulbs:
One bulb will be HOT (but off). This corresponds to switch 1.
One bulb will be ON. This corresponds to switch 2.
One bulb will be OFF, but WARM. This corresponds to switch 3.
By following these steps, you'll be able to determine which switch corresponds to each bulb in just one trip upstairs!
中文提示词提问


https://i-blog.csdnimg.cn/blog_migrate/d9b222c8114086e2866b2d6b7bae686f.png
   A classic puzzle! Here's the solution:
Step 1: Initial Setup
Turn switch 1 to ON for 5 minutes.
Turn switch 1 to OFF.
Turn switch 2 to ON.
Step 2: Go Upstairs
Observe the bulbs:
One will be HOT (recently off).
One will be ON.
One will be OFF (and cold).
Step 3: Deduce the Switch-Bulb Mapping
The HOT bulb corresponds to switch 1.
The ON bulb corresponds to switch 2.
The OFF (and cold) bulb corresponds to switch 3.
Explanation
By initially turning switch 1 to ON for 5 minutes, we ensure that the corresponding bulb is hot even after it's turned off.
By then turning switch 2 to ON, we create a distinction between the two remaining bulbs.
When we go upstairs, we can identify the HOT bulb as corresponding to switch 1, the ON bulb as corresponding to switch 2, and the remaining OFF (and cold) bulb as corresponding to switch 3.
结论

英文提示和中文提示下,Llama 3均通过测试。但通过多次实验,我发现在中文提示下,Llama 3的表现比较不稳固,有时会出现幻觉,有时又能够回复正确。

精选推荐


[*] 完全免费白嫖GPT4的三个方法,都给你整理好了!
[*] AI范畴的国产之光,ChatGPT的免费平替:Kimi Chat!
[*] Kimi Chat,不仅仅是谈天!深度分析Kimi Chat 5大使用场景!
[*] 我用AI工具5分钟制作一个动画微影戏!这个AI现在免费!
[*] 当全网都在疯转OpenAI的Sora时,我们平凡人能做哪些准备?——关于Sora,你需要相识这些!
[*] 文心一言4.0 VS ChatGPT4.0哪家强?!每月60块的文心一言4.0值得开吗?
[*] ChatGPT和文心一言哪个更好用?一道题告诉你答案!
[*] 字节推出了“扣子”,国内版的Coze,但是我不推荐你用!
[*] 白嫖GPT4,Dalle3和GPT4V - 字节开辟的Coze初体验!附教程及提示词Prompt
[*] 2024年了你还在用百度翻译?手把手教会你使用AI翻译!一键翻译网页和PDF文件!

都读到这里了,点个赞鼓励一下吧,小手一赞,年薪百万!
页: [1]
查看完整版本: Llama 3“智商”测试:英文提示表现亮眼,中文不完美但差能人意!