Meta Llama 3 使用 Hugging Face 和 PyTorch 优化 CPU 推理

[复制链接]
发表于 2026-2-7 06:15:10 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能,让你轻松玩转社区。

您需要 登录 才可以下载或查看,没有账号?立即注册

×
原文地点:meta-llama-3-optimized-cpu-inference-with-hugging-face-and-pytorch
相识在 CPU 上摆设 Meta* Llama 3 时怎样镌汰模子耽误
2024 年 4 月 19 日
万众等候的 Meta 第三代 Llama 发布了,我想确保你知道怎样以最佳方式摆设这个开始辈的(SoTA)LLM。在本文中,我们将重点讨论怎样实行只权重量化(WOQ)来压缩 8B 参数模子并改善推理耽误,但起首,让我们讨论一下 Meta Llama 3。
Llama 3
迄今为止,Llama 3 系列包罗 8B 到 70B 参数的模子,未来还会有更多版本。这些模子都附带有允许使用的 Meta Llama 3 允许证,请在担当使用这些模子所需的条款之前细致阅读。这标记着 Llama 模子系列和开源人工智能进入了冲动民气的新篇章。
布局
Llama 3 是一种基于纯解码器transformer的自动回归 LLM。与 Llama 2 相比,Meta 团队做出了以下显着改进:

      
  • 采取分组查询关注 (GQA),进步了推理服从。  
  • 优化了标记符号天生器,其词汇量为 128K 标记,旨在更高效地编码语言。  
  • 在 15 万亿个 token 数据集上举行了训

免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!qidao123.com:ToB企服之家,中国第一个企服评测及软件市场,开放入驻,技术点评得现金
回复

使用道具 举报

登录后关闭弹窗

登录参与点评抽奖  加入IT实名职场社区
去登录
快速回复 返回顶部 返回列表