媲美GPT-4o mini的小模型,Meta Llama 3.2模型全面解读!
大家好,我是木易,一个持续关注AI范畴的互联网技术产品经理,国内Top2本科,美国Top10 CS研究生,MBA。我坚信AI是普通人变强的“外挂”,专注于分享AI全维度知识,包罗但不限于AI科普,AI工具测评,AI效率提升,AI行业洞察。关注我,AI之路不迷路,2024我们一起变强。作为开源AI模型范畴的领头羊,Meta的Llama系列模型在持续迭代,不停进化。就在近日的Meta Connect 2024大会上,Meta推出了新版本的Llama模型——Llama 3.2。
https://img-blog.csdnimg.cn/img_convert/2089b73e9cfa9bc0700016b19e9a2349.jpeg
省流版择要
[*] Llama 3.2 正式发布:包罗小型和中型视觉大模型(11B和90B),以及轻量级的文本模型(1B和3B),适用于边缘装备和移动装备,并提供预训练和指令微调版本。
[*] 轻量模型体现突出:1B和3B模型支持128K的上下文长度,在装备端的使命(如择要天生、指令实行、文本改写)中体现卓越,适配高通、联发科硬件,并针对Arm处理惩罚器举行了优化。
[*] 视觉模型超越封闭模型:Llama 3.2的11B和90B视觉模型可以直接替代对应文本模型,在图像明白使命上凌驾了Claude 3 Haiku等封闭模型,支持本地微调和部署。
[*] Llama Stack 分布方案:初次推出官方的Llama Stack分布,简化了在单节点、本地部署、云端和装备端利用Llama模型的工作流程,支持RAG(检索增强天生)等集成安全的应用。
[*] 广泛互助伙伴支持:与AWS、Databricks、戴尔科技等互助伙伴协作,为企业客户构建了Llama Stack分布方案。装备端通过PyTorch ExecuTorch实现,单节点通过Ollama支持。
[*] 坚持开放创新:Llama 继承在开放性、可修改性和本钱效益方面引领行业,帮助更多人通过天生式AI实现创意突破。Llama 3.2模型现已可在llama.com和Hugging Face下载,并支持多家互助平台即时开发。
为什么推出Llama 3.2
Llama 3.2的推出,是对开发者需求的积极响应。Llama 3.1系列模型发布至今已有两个月,此中最引人注目的是405B模型,它是首个开源的前沿级AI模型。然而,Llama 3.1系列只管性能卓越,但在实际应用中,搭建这些模型每每需要大量的计算资源和专业知识。如何可以或许在有限的资源条件下,依然享受Llama模型带来的先进功能?Llama 3.2在如许的背景下应运而生。
Llama 3.2的核心目的是让更广泛的开发者,尤其是在边缘装备和移动装备上构建应用的开发者,可以或许利用轻量且高效的模型举行开发。通过引入1B和3B的轻量级文本模型,以及11B和90B的视觉大模型,Llama 3.2为装备端的应用提供支持。别的,Llama 3.2还进一步优化了对高通、联发科等硬件的支持,并针对Arm处理惩罚器举行了精细优化,确保在边缘装备上的性能体现出色。
Llama 3.2核心能力
Llama 3.2系列中的两款大模型——11B和90B,专为图像推理使命而设计,支持多种视觉明白应用场景,如文档级别的图表和图像解析、图像标注以及基于天然语言形貌的视觉定位使命。例如,可以通干涉题询问上一年度哪个月企业的销售体现最佳,Llama 3.2会根据提供的图表快速推理并给出答案。在另一个场景中,模型还可以通太过析地图,回答某条远足门路何时变得陡峭或特定路径的距离。Llama 3.2模型不仅可以或许从图像中提取细节,还能明白场景的整体内容,天生适合的图像说明,使得视觉与语言之间的鸿沟得以弥合。
轻量级的1B和3B模型则在多语言文本天生和工具调用能力上体现出色。这些模型可以或许帮助开发者构建个性化的本地化智能应用,确保数据隐私不离开装备自己。好比,一个如许的应用可以帮助用户总结最近收到的10条消息,提取此中的待办事项,并直接通过工具调用发送会议跟进邀请。
在本地运行这些模型具有两个显著优势。首先,提示词和模型响应的处理惩罚速度更快,由于所有操纵都在本地举行。其次,本地化运行可以或许保持数据隐私,避免诸如消息或日历等信息上传至云端,从而确保应用的隐私性更高。由于处理惩罚均在本地完成,开发者和用户可以完全掌控哪些查询留在装备上处理惩罚,哪些查询可能需要更大的模型在云端完成。
Llama 3.2模型评估
经过评估,Llama 3.2视觉模型在图像识别和多种视觉明白使命上,体现与当前领先的基础模型Claude 3 Haiku和GPT-4o mini相当。尤其是3B模型,在指令实行、择要天生、提示词改写和工具利用等使命上,超越了Gemma 2 2.6B和Phi 3.5-mini等竞争对手;而1B模型在多项使命中与Gemma系列的体现不相上下。
Llama 3.2模型的性能评估基于凌驾150个基准数据集,这些数据集涵盖了多种语言和使命范例。对于视觉大语言模型,重要评估了其在图像明白和视觉推理使命中的体现,结果体现Llama 3.2在这些关键使命上具备领先优势。
视觉指令微调基准测试
在视觉指令微调基准测试(Vision Instruction-Tuned Benchmarks)中,Llama 3.2的11B和90B模型体现出色,尤其在视觉推理、图表明白和问答使命上,整体体现优于Claude 3 - Haiku,乃至在某些使命上超越了GPT-4o-mini。
[*] 图像推理使命:
[*] 在复杂图表明白使命(如ChartQA和AI2 Diagram)上,Llama 3.2的90B模型得分最高,超越了其他模型。
[*] 在DocVQA(文档视觉问答)使命中,Llama 3.2的体现与Claude 3 - Haiku接近,但仍然稍有领先。
[*] 数学与推理使命:
[*] Llama 3.2在MATH和MMMU使命上的体现强劲,尤其是90B模型,远远超越了Claude 3 - Haiku。
[*] 文本使命:
[*] Llama 3.2在GPQA(推理)和MMLU(通用推理)等文本使命中的体现同样很好,特别是90B模型在多语言推理使命(MGSM)上体现良好。
https://img-blog.csdnimg.cn/img_convert/0aa014b2e775890056675e21dcdddd7b.jpeg
轻量级指令微调基准测试
在轻量级指令微调基准测试(Lightweight Instruction-Tuned Benchmarks)中,Llama 3.2系列的1B和3B模型在多项使命中体现良好,尤其在工具利用、数学推理和多语言推理等方面展现了较强的竞争力。此中,Llama 3.2 3B在BFCL V2工具利用使命中以67.0分领先,在多语言推理使命MGSM中,Llama 3.2 3B取得了58.2分,体现出其在装备端应用中的强盛能力。
[*] 通用使命:
[*] 在MMLU(5-shot)使命中,Llama 3.2 3B以63.4分体现出色,超越了Gemma 2 2B IT,但略低于Phi-3.5-mini IT的69.0分。
[*] 在Open-rewrite eval使命中,Llama 3.2系列模型整体领先,Llama 3.2 1B和Llama 3.2 3B分别得分41.6和40.1,优于其他对比模型。
[*] 工具利用:
[*] Llama 3.2 3B在BFCL V2工具利用使命中体现良好,以67.0分大幅领先于其他模型,体现出其在调用工具使命中的强盛能力。
[*] 数学推理:
[*] 在GSM8K使命中,Llama 3.2 3B体现良好,获得77.7分,凌驾了Gemma 2 2B IT的62.5分,但Phi-3.5-mini IT依然以86.2分在该使命上领先。
[*] MATH使命中,Llama 3.2 3B取得48.0分,同样远超Gemma 2 2B IT和Phi-3.5-mini IT。
[*] 推理能力:
[*] Llama 3.2 3B在ARC Challenge推理使命中取得78.6分,略胜于Gemma 2 2B IT,但仍低于Phi-3.5-mini IT的87.4分。
[*] 多语言使命:
[*] 在MGSM(0-shot)使命中,Llama 3.2 3B的58.2分显著超越了其他模型,表明其在多语言推理使命上的卓越体现。
https://img-blog.csdnimg.cn/img_convert/fe6113e88926ad3083949d061c03643d.jpeg
视觉模型
Llama 3.2的11B和90B模型是初次支持视觉使命的Llama模型。为支持图像输入,这些模型采用了全新的架构,具备图像推理能力。模型通过引入一组专门训练的适配器权重,将预训练的图像编码器与预训练的语言模型举行集成。这些适配器由一系列交织注意力层组成,将图像编码器的体现传递给语言模型,确保图像和语言的体现可以或许很好地对齐。
https://img-blog.csdnimg.cn/img_convert/38a6dfab76cbf2010510a792579627ec.jpeg
在训练过程中,首先利用包罗大量噪声的图像-文本对数据举行预训练,然后再通过中等规模的高质量、范畴内和知识增强的图像-文本对数据举行进一步训练。在适配器训练阶段,仅更新图像编码器的参数,而保存语言模型的参数不变,以确保其原有的文本处理惩罚能力不受影响,使得开发者可以或许将其作为Llama 3.1模型的直接替代方案。
在模型的后期训练中,采用了与文本模型相似的调优方法,结合多轮的监督微调、拒绝采样和直接偏好优化。通过利用天生的数据,结合范畴内的图像举行问题和答案的天生,确保微调数据的高质量,并引入安全缓解数据,确保模型在保持有效性的同时具备高安全性。
最终,Llama 3.2的视觉模型可以或许同时处理惩罚图像和文本提示,具备深度明白和推理能力。
轻量级模型
与Llama 3.1一样,Llama 3.2借助强盛的教师模型(Teacher Model),成功打造出性能良好的轻量级模型。通过剪枝(Pruning)和知识蒸馏(Knowledge Distillation)两种技术本领,Llama 3.2的1B和3B模型初次实现了在装备端高效运行的能力,成为轻量化Llama模型中的佼佼者。
剪枝技术的应用使得模型体积得以缩减,但依然保存了尽可能多的知识和性能。通过结构化剪枝,对Llama 3.1 8B模型举行精细化调整,系统性地移除部分网络节点,并调整权重和梯度的大小,从而天生一个更小、更高效的模型,同时保持原网络的性能。
知识蒸馏则通过将较大网络的知识传递给较小网络,从而提升小模型的性能。在Llama 3.2的1B和3B模型中,结合了来自Llama 3.1 8B和70B模型的logits,将这些输出作为预训练阶段的目的举行训练,随后在剪枝后通过蒸馏技术规复模型的性能。
https://img-blog.csdnimg.cn/img_convert/374a7304a278341f901b93c2f82c8f69.jpeg
在后期训练中,采用与Llama 3.1类似的流程,通过多轮对预训练模型的对齐,包罗监督微调、拒绝采样和直接偏好优化,天生最终的对话模型。别的,支持的上下文长度扩展至128K tokens,同时保证了与预训练模型相同的质量水平。为了确保数据质量,还利用了合成数据天生技术,经过精细处理惩罚和过滤,以优化模型在择要天生、文本改写、指令实行、语言推理和工具利用等多项能力上的体现。
为进一步推动轻量模型在移动装备上的应用,Llama 3.2与高通、联发科以及Arm紧密互助,这三家公司在环球移动装备处理惩罚器市场占据重要职位,确保模型能在99%的移动装备上高效运行。发布的模型权重基于BFloat16数值,量化变体也正在积极研发中,未来将进一步提升运行速度。
https://img-blog.csdnimg.cn/img_convert/4b01aa45adb02c050cfe59b4997a4f60.jpeg
Llama Stack 分布方案
Meta于7月发布了关于Llama Stack API的意见征集,旨在提供一个尺度化的接口,支持对Llama模型举行微调、天生合成数据等工具链组件的自定义化。
经过数月,Llama团队将该API从概念化变为实际应用,开发了API的参考实现,涵盖了推理、工具调用和检索增强天生(RAG)等功能。最终推出了Llama Stack分布方案,通过将多个API服务提供商打包为一个单一的端点,简化了开发者在不同情况中利用Llama模型的体验,无论是本地部署、云端还是装备端。
https://img-blog.csdnimg.cn/img_convert/6fe0ab5d7826e869eb8e19479a7c1a5a.jpeg
Llama Stack分布方案的完备发布内容包罗:
[*] Llama CLI:命令行工具,用于构建、设置和运行Llama Stack分布方案
[*] 多种语言的客户端代码支持,包罗Python、Node、Kotlin和Swift
[*] 适用于Llama Stack分布服务器和代理API服务提供商的Docker容器
[*]多种分布方案支持
[*] 单节点Llama Stack分布(通过Meta内部实现和Ollama)
[*] 云端分布方案(支持AWS、Databricks、Fireworks和Together)
[*] 装备端分布方案(通过PyTorch ExecuTorch在iOS上实现)
[*] 本地部署分布方案(戴尔支持的On-prem)
https://img-blog.csdnimg.cn/img_convert/6749a9ceb8aa5017f74dd7763a751215.jpeg
如何利用Llama 3.2
[*] Hugging Face: Llama 3.2的各类模型,包罗轻量级的1B和3B文本模型,以及支持图像处理惩罚的11B和90B视觉模型,均可在Hugging Face上下载和利用。这是开发者举行模型微调、实行以及集成到不同应用中的一个常见平台。
[*] Amazon Bedrock 和 SageMaker: Llama 3.2模型在Amazon Bedrock和SageMaker上支持云端部署。用户可以通过这些平台举行模型推理,并支持多区域推理端点,方便开发者举行程序化调用。别的,Amazon SageMaker JumpStart还提供了微调和模型部署的能力,使开发者可以或许定制Llama 3.2模型以满足特定应用需求。
[*] Azure AI: Llama 3.2模型在Microsoft Azure AI平台上也可以利用,提供了无服务器的API部署方案。Azure上不仅支持Llama模型的尺度推理,还集成了内容安全功能,帮助开发者在构建AI应用时遵守合规要求。
精选推荐
都读到这里了,点个赞鼓励一下吧,小手一赞,年薪百万!
页:
[1]