马上注册,结交更多好友,享用更多功能,让你轻松玩转社区。
您需要 登录 才可以下载或查看,没有账号?立即注册
×
原文地点:meta-llama-3-optimized-cpu-inference-with-hugging-face-and-pytorch
相识在 CPU 上摆设 Meta* Llama 3 时怎样镌汰模子耽误
2024 年 4 月 19 日
万众等候的 Meta 第三代 Llama 发布了,我想确保你知道怎样以最佳方式摆设这个开始辈的(SoTA)LLM。在本文中,我们将重点讨论怎样实行只权重量化(WOQ)来压缩 8B 参数模子并改善推理耽误,但起首,让我们讨论一下 Meta Llama 3。
Llama 3
迄今为止,Llama 3 系列包罗 8B 到 70B 参数的模子,未来还会有更多版本。这些模子都附带有允许使用的 Meta Llama 3 允许证,请在担当使用这些模子所需的条款之前细致阅读。这标记着 Llama 模子系列和开源人工智能进入了冲动民气的新篇章。
布局
Llama 3 是一种基于纯解码器transformer的自动回归 LLM。与 Llama 2 相比,Meta 团队做出了以下显着改进:
- 采取分组查询关注 (GQA),进步了推理服从。
- 优化了标记符号天生器,其词汇量为 128K 标记,旨在更高效地编码语言。
- 在 15 万亿个 token 数据集上举行了训
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!qidao123.com:ToB企服之家,中国第一个企服评测及软件市场,开放入驻,技术点评得现金 |