Nvidia AI 发布 Llama-Minitron 3.1 4B:通过修剪和提炼 Llama 3.1 8B 构建 ...

打印 上一主题 下一主题

主题 1908|帖子 1908|积分 5724

Nvidia 刚刚发布了语言模型的新版本,不过这次是一个小型语言模型:Llama-3.1-Minitron 4B 模型。这意味着它是语言模型不断发展的重要步骤之一,通过剪枝和知识提炼等尖端技能,将大型模型的效率与小型模型相联合。

Llama-3.1-Minitron 4B 模型是大型 Llama-3.1 8B 姐妹模型的提炼和剪枝版本。为了在原始 8B 模型的基础上创建更小的模型,Nvidia 在深度和宽度方向上使用告终构化剪枝技能。剪枝是一种删除网络中不那么重要的层或神经元的技能,目的是减小模型的大小和复杂度,同时生存其性能。在本例中,Nvidia 通过从模型中删除 16 层来进行深度剪枝,并将其从 8B 模型缩减为 4B 模型。另一种技能是通过减少嵌入维度和 MLP 中心层来进行宽度剪枝。
除了剪枝,Nvidia 还接纳了经典蒸馏技能来进步 Llama-3.1-Minitron 4B 的效率。知识蒸馏是一个过程,在这个过程中,一个较小的模型(即学生)会被训练成模仿一个更大、更复杂的模型(即西席)的举动。通过这种方式,较小模型中生存了原始模型的大部分预测能力,但速度更快,资源更节省。Nvidia 将此与蒸馏技能和剪枝技能相联合,确保重新训练的 4B 模型性能优秀,并在更大的模型中得到很好的应用。

Llama-3.1-Minitron 4B 模型在各种基准测试中体现出色,与更大型的先进开源模型相比,性能极具竞争力。在大多数领域,它的性能都远远超过许多其他小型语言模型,如 Minitron 4B、Phi-2 2.7B、Gemma2 2.6B 和 Qwen2-1.5B。广泛的基准测试证实,该模型在推理、编码和数学方面具有更高的准确性和效率。
Llama-3.1-Minitron 4B 模型的最大优势之一在于,它既能在划一条件下进行竞争,又能节约资源。它使用的训练代币数量仅是重新开始训练所需的一小部分,最多可减少 40 倍。这就节省了大量的盘算成本。这使得它成为一个非常有吸引力的选择,可以部署在盘算资源有限的场景中,以部署大规模语言模型。

Nvidia 进一步优化了 Llama-3.1-Minitron 4B 模型,将其部署到 TensorRT-LLM 工具包中,从而增强了其推理性能。比方,该模型在各种情况下的 FP8 精度吞吐量比原来的 Llama 3.1 8B 模型进步了 2.7 倍。对 Llama-3.1-Minitron 4B 进行的额外优化使该模型变得非常强大和高效,可轻松应用于许多领域。

总之,Nvidia 发布的 Llama-3.1-Minitron 4B 模型是 LLM 创建过程中的一次巨大飞跃。因此,Nvidia 计划的模型在节省资源的同时实现了精良的性能,因此在许多 NLP 任务中非常有效。Llama-3.1-Minitron 4B 模型将成为 Nvidia 的 "Hugging Face "系列的一部分,并为不断变化的强大、免费的人工智能模型格局添砖加瓦。
感谢大家花时间阅读我的文章,你们的支持是我不断进步的动力。期望未来能为大家带来更多有价值的内容,请多多关注我的动态!

免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

x
回复

使用道具 举报

0 个回复

倒序浏览

快速回复

您需要登录后才可以回帖 登录 or 立即注册

本版积分规则

雁过留声

论坛元老
这个人很懒什么都没写!
快速回复 返回顶部 返回列表