云原生Llama架构比不上GPT2？神奇token提拔10倍记忆？

北冰洋以北 发表于 2024-8-16 11:26:57

Llama架构比不上GPT2？神奇token提拔10倍记忆？

近日，朱泽园 (Meta AI) 和李远志 (MBZUAI) 的最新研究《语言模子物理学 Part 3.3：知识的 Scaling Laws》用海量实验（50,000 条使命，总计 4,200,000 GPU 小时）总结了 12 条定律，为 LLM 在不同条件下的知识容量提供了较为精确的计量方法。
一个 7B 规模的语言模子 LLM 能存储多少人类知识？如何量化这一数值？练习时间、模子架构的不同将如何影响这一数值？浮点数压缩 quantization、混合专家模子 MoE、以及数据质量的差异 (百科知识 vs 网络垃圾) 又将对 LLM 的知识容量产生何种影响？
近日，朱泽园 (Meta AI) 和李远志 (MBZUAI) 的最新研究《语言模子物理学 Part 3.3：知识的 Scaling Laws》用海量实验（50,000 条使命，总计 4,200,000 GPU 小时）总结了 12 条定律，为 LLM 在不同条件下的知识容量提供了较为精确的计量方法。

https://i-blog.csdnimg.cn/blog_migrate/f7d4626691c5ccab87c3230dd475a97e.png
作者起首指出，通过开源模子在基准数据集 (benchmark) 上的体现来衡量 LLM 的 scaling law 是不现实的。例如，LlaMA-70B 在知识数据集上的体现比 LlaMA-7B 好 30%，这并不能分析模子扩大 10 倍仅仅能在容量上提高 30%。如果使用网络数据练习模子，我们也将很难估计其中包含的知识总量。
再举个例子，我们比力 Mistral 和 Llama 模子的好坏之时，到底是他们的模子架构不同导致的区别

免责声明：如果侵犯了您的权益，请联系站长，我们会及时删除侵权内容，谢谢合作！更多信息从访问主页：qidao123.com:ToB企服之家，中国第一个企服评测及商务社交产业平台。

页: [1]

ToB企服应用市场:ToB评测及商务社交产业平台's Archiver

Llama架构比不上GPT2？神奇token提拔10倍记忆？