Llama 4 Scout和Maverick:多模态AI界的“性价比之王”来袭!
我们正在分享Llama 4系列中的首批模子,这将使人们可以或许构建更具个性化的多模态体验。Llama 4 Scout是一个拥有170亿活跃参数和16个专家的模子,是其种别中全球最佳的多模态模子,比全部上一代Llama模子都更强大,且可以或许适配单个NVIDIA H100 GPU。此外,Llama 4 Scout提供了行业领先的1000万字的上下文窗口,并在广泛报道的多种基准测试中,比Gemma 3、Gemini 2.0 Flash-Lite和Mistral 3.1取得了更好的结果。
Llama 4 Maverick是一个拥有170亿活跃参数和128个专家的模子,是其种别中最佳的多模态模子,在广泛报道的多种基准测试中击败了GPT-4o和Gemini 2.0 Flash,同时在推理和编码方面与新的DeepSeek v3取得了相称的结果——尽管其活跃参数不到后者的一半。Llama 4 Maverick提供了同类最佳的性能与本钱比,其实验性聊天版本在LMArena上获得了1417的ELO评分。
这些模子之以是成为我们迄今为止最好的模子,是因为它们是从拥有2880亿活跃参数和16个专家的Llama 4 Behemoth模子中提炼出来的,而Llama 4 Behemoth是我们迄今为止最强大的模子,也是世界上最聪明的大型语言模子之一。Llama 4 Behemoth在多个STEM基准测试中凌驾了GPT-4.5、Claude Sonnet 3.7和Gemini 2.0 Pro。Llama 4 Behemoth仍在训练中,我们迫不及待地想要分享更多关于它的细节,即使它仍在训练过程中。
今天,请在http://llama.com和Hugging Face上下载Llama 4 Scout和Llama 4 Maverick模子。你可以在WhatsApp、Messenger、Instagram Direct和网页上体验利用Llama 4构建的Meta AI。 随着越来越多的人继续利用人工智能来提升他们的日常生活,重要的是领先的模子和体系可以或许公开获取,以便每个人都能构建个性化体验的未来。今天,我们很兴奋地宣布支持整个Llama生态体系开始进的模子套件。我们推出了Llama 4 Scout和Llama 4 Maverick,这是首批具有无与伦比的上下文长度支持的开放权重原生多模态模子,也是我们初次利用专家混合(MoE)架构构建的模子。我们还预览了Llama 4 Behemoth,这是世界上最聪明的大型语言模子之一,也是我们迄今为止最强大的模子,将作为我们新模子的西席。
https://www.llama.com/llama4/
https://i-blog.csdnimg.cn/img_convert/1be0c73510dd8e9eca6e8193d23bdb76.webp?x-oss-process=image/format,png
https://i-blog.csdnimg.cn/img_convert/58cabde3295481d8c0b44ddd736bd46a.webp?x-oss-process=image/format,png
这些Llama 4模子标志着Llama生态体系新时代的开始。我们在Llama 4系列中计划了两个高效的模子,Llama 4 Scout(一个拥有170亿活跃参数和16个专家的模子)和Llama 4 Maverick(一个拥有170亿活跃参数和128个专家的模子)。前者可以适配单个H100 GPU(利用Int4量化),而后者可以适配单个H100主机。我们还训练了一个西席模子Llama 4 Behemoth,在STEM重点基准测试(如MATH-500和GPQA Diamond)中凌驾了GPT-4.5、Claude Sonnet 3.7和Gemini 2.0 Pro。尽管我们尚未发布Llama 4 Behemoth,因为它仍在训练中,但我们很兴奋地分享更多关于我们的方法的技能细节。
我们继续信赖,开放性推动创新,对开发者有利,对Meta有利,对世界也有利。今天,我们在http://llama.com和Hugging Face上提供Llama 4 Scout和Llama 4 Maverick的下载,以便每个人都能继续利用我们的最新技能构建新的体验。我们还将在未来几天通过我们的合作搭档提供它们。从今天起,你也可以在WhatsApp、Messenger、Instagram Direct和Meta.AI网站上体验利用Llama 4的Meta AI。
这只是Llama 4系列的开始。我们信赖,最智能的体系须要可以或许接纳一般化办法、与人类天然对话,并解决它们未曾见过的复杂问题。在这些范畴赋予Llama超能力,将为我们的平台上的人们带来更好的产品,并为开发者在下一个重要的消费和商业用例上创新提供更多时机。我们继续研究和原型计划模子和产品,并将在4月29日的LlamaCon上分享更多关于我们的愿景——请注册以相识更多信息。
无论你是基于我们模子构建的开发者、将它们集成到你的工作流程中的企业,还是仅仅对人工智能的埋伏用途和好处感兴趣的人,Llama 4 Scout和Llama 4 Maverick都是为你的产品添加下一代智能的最佳选择。今天,我们很兴奋地分享更多关于它们开发的四个重要部分以及我们研究和计划过程的看法。我们也迫不及待地想看到社区用我们的新Llama 4模子构建的令人赞叹的新体验。
预训练
这些模子代表了Llama的精华,在提供多模态智能的同时,以合理的价格逾越了规模大得多的模子。构建下一代Llama模子须要我们在预训练阶段接纳几种新方法。
我们的新Llama 4模子是我们初次利用专家混合(MoE)架构的模子。在MoE模子中,一个单独的标记只激活总参数的一部分。MoE架构在训练和推理方面更高效,而且在固定的训练FLOPs预算下,与密集模子相比,可以或许提供更高的质量。
https://i-blog.csdnimg.cn/img_convert/ed919a6bb76938881f51ef871021f891.webp?x-oss-process=image/format,png
举例来说,Llama 4 Maverick模子拥有170亿活跃参数和4000亿总参数。我们利用交替的密集层和专家混合(MoE)层来提高推理效率。MoE层利用128个路由专家和一个共享专家。每个标记都会被发送到共享专家以及128个路由专家中的一个。因此,尽管全部参数都存储在内存中,但在提供这些模子服务时,只有总参数的一个子集被激活。这通过降低模子服务本钱和延迟来提高推理效率——Llama 4 Maverick可以在单个NVIDIA H100 DGX主机上运行,便于部署,也可以通过分布式推理来实现最大效率。
Llama 4模子采用原生多模态计划,通过早期融合将文本和视觉标记无缝整合到同一的模子框架中。早期融合是一个巨大进步,因为它使我们可以或许联合预训练模子,利用大量未标记的文本、图像和视频数据。我们还在Llama 4中改进了视觉编码器。这是基于MetaCLIP的,但与冻结的Llama模子一起单独训练,以更好地使编码器适应LLM。
我们开发了一种新的训练技能,我们称之为MetaP,它使我们可以或许可靠地设置关键模子超参数,如每层学习率和初始化规模。我们发现,选定的超参数在不同批量巨细、模子宽度、深度和训练标记值之间转移得很好。Llama 4通过在200种语言上预训练,包括凌驾100种每种凌驾10亿标记的语言,以及总体上比Llama 3多10倍的多语言标记,从而推动了开源微调工作。
此外,我们通过利用FP8精度来专注于高效模子训练,同时不牺牲质量并确保高模子FLOPs利用率——在利用FP8和32K GPU预训练我们的Llama 4 Behemoth模子时,我们实现了每GPU 390 TFLOPs。训练的团体数据混合包括凌驾30万亿标记,这比Llama 3的预训练混合多了一倍多,包括多样化的文本、图像和视频数据集。
我们继续在所谓的“中期训练”中训练模子,以利用新的训练配方改进焦点能力,包括利用专门的数据集举行长上下文扩展。这使我们可以或许在解锁Llama 4 Scout的行业领先1000万输入上下文长度的同时,提升模子质量。
我们新模子的后期训练
我们的最新模子包括较小和较大的选项,以满意各种用例和开发人员的需求。Llama 4 Maverick在图像和文本理解方面提供了无与伦比、行业领先的性能,可以或许创建跨越语言停滞的复杂人工智能应用程序。作为我们用于通用助手和聊天用例的产品主力模子,Llama 4 Maverick非常适合精确的图像理解和创意写作。
在后期训练Llama 4 Maverick模子时,最大的挑战是保持多种输入模态、推理和对话能力之间的均衡。对于混合模态,我们计划了一种精心筹谋的课程策略,与单独模态专家模子相比,不会降低性能。在Llama 4中,我们通过采用不同的方法彻底改革了后期训练流程:轻量级监视微调(SFT)>在线强化学习(RL)>轻量级直接偏好优化(DPO)。一个关键的发现是,SFT和DPO大概会过分约束模子,限定在线RL阶段的探索,并导致推理、编码和数学范畴的正确性降低。为相识决这个问题,我们利用Llama模子作为评判,移除了凌驾50%被标记为简单的数据,并在剩余的较难数据集上举行轻量级SFT。在随后的多模态在线RL阶段,通过精心选择较难的提示,我们可以或许实现性能的飞跃。此外,我们实行了一种一连在线RL策略,在训练模子和利用它持续筛选并仅保存中比及较难难度提示之间交替。这种策略在计算和正确性权衡方面被证实黑白常有益的。然后我们举行了轻量级DPO,以处理与模子相应质量相关的边缘情况,有用地实现了模子智能和对话能力之间的精良均衡。管道架构和具有自适应数据筛选的一连在线RL策略共同作育了一个具有行业领先、通用聊天模子,具备开始进的智能和图像理解能力。
作为一种通用LLM,Llama 4 Maverick包罗170亿活跃参数、128个专家和4000亿总参数,与Llama 3.3 70B相比,以更低的价格提供高质量。Llama 4 Maverick是同类最佳的多模态模子,在编码、推理、多语言、长上下文和图像基准测试中凌驾了类似模子,如GPT-4o和Gemini 2.0,而且在编码和推理方面与规模大得多的DeepSeek v3.1具有竞争力。
https://i-blog.csdnimg.cn/img_convert/23432363db451f697e31ac9dae805176.webp?x-oss-process=image/format,png
我们的较小模子,Llama 4 Scout,是一款拥有170亿活跃参数、16个专家以及1090亿总参数的通用模子,可以或许为其所属种别提供开始进的性能。Llama 4 Scout将支持的上下文长度从Llama 3的128K大幅提升至行业领先的1000万标记,这为多种应用开辟了广阔的大概性,包括多文档总结、解析大量用户活动以执行个性化任务,以及在巨大的代码库上举行推理。
Llama 4 Scout既举行了256K上下文长度的预训练,也举行了后训练,这赋予了基础模子强大的长序列泛化能力。我们在诸如文本的“大海捞针”检索任务以及代码1000万标记的累积负对数似然(NLLs)等任务中展示了令人佩服的结果。Llama 4架构的关键创新之一是利用无位置嵌入的交错注意力层。此外,我们还采用推理时注意力温度缩放来加强长序列泛化能力。我们称这种架构为iRoPE架构,此中“i”代表“交错”的注意力层,突出了支持“无限”上下文长度的长期目标,“RoPE”则指大多数层中利用的旋转位置嵌入。
https://i-blog.csdnimg.cn/img_convert/9565b35f4757d3bf23623690643b7d08.webp?x-oss-process=image/format,png
https://i-blog.csdnimg.cn/img_convert/93126378b399f13ce301db7357682e98.webp?x-oss-process=image/format,png
我们对两款模子举行了广泛的图像和视频帧静止画面的训练,以便让它们具备广泛的视觉理解能力,包括对时间序列活动及相关图像的理解。这使得模子可以或许在多图像输入和文本提示下轻松举行视觉推理和理解任务的交互。这些模子在多达48张图像上举行了预训练,而且我们在后训练中测试了多达8张图像,结果体现精良。
Llama 4 Scout在图像定位方面也是同类最佳,可以或许将用户提示与相关的视觉概念对齐,并将模子的相应锚定在图像的特定地区。这使得大型语言模子可以或许更精确地举行视觉问答,更好地理解用户意图并定位感兴趣的物体。此外,Llama 4 Scout在编码、推理、长上下文和图像基准测试方面也凌驾了类似模子,而且比全部从前的Llama模子都体现得更好。
https://i-blog.csdnimg.cn/img_convert/b8d9914cd0d164ad22767308f0ec3907.webp?x-oss-process=image/format,png
这些新模子是构建人类未来连接的重要基石。秉持我们对开源的答应,我们将在http://llama.com和Hugging Face上提供Llama 4 Maverick和Llama 4 Scout的下载服务,而且很快就会在最广泛利用的云平台、数据平台、边缘芯片以及全球服务集成商上实现可用性。
拓展Llama的规模:2万亿参数的Behemoth模子
我们非常兴奋地分享Llama 4 Behemoth的预览,这是一个在其种别中显现出先进智能的西席模子。Llama 4 Behemoth也是一个多模态的专家混合模子,拥有2880亿活跃参数、16个专家以及接近2万亿的总参数。在数学、多语言和图像基准测试中,它为非推理模子提供了开始进的性能,是教导较小的Llama 4模子的绝佳选择。我们以Llama 4 Behemoth作为西席模子,对Llama 4 Maverick模子举行了协同蒸馏,从而在最终任务评估指标上实现了明显的质量提升。我们开发了一种新颖的蒸馏损失函数,该函数在训练过程中动态地对软目标和硬目标举行加权。在预训练阶段,从Llama 4 Behemoth举行协同蒸馏,分摊了为学生训练所利用的大部分训练数据计算蒸馏目标所需的资源密集型前向传播的计算本钱。对于学生训练中额外参加的新数据,我们在Behemoth模子上运行前向传播以创建蒸馏目标。
https://i-blog.csdnimg.cn/img_convert/2298dcca6c8aa62892ac54ac501ab3fc.webp?x-oss-process=image/format,png
对一个拥有两万亿参数的模子举行后期训练也是一个巨大的挑战,这要求我们从数据规模开始,彻底改革并更新训练配方。为了最大化性能,我们不得不削减95%的SFT(监视微调)数据,相比之下,对于较小的模子,这一比例仅为50%,以此来确保在质量和效率上的须要专注。我们还发现,先举行轻量级的SFT,随后举行大规模的强化学习(RL),可以或许在模子的推理和编码能力上带来更为明显的提升。我们的RL配方专注于通过与策略模子举行pass@k分析来采样难度较高的提示,并构建一个提示难度逐渐增加的训练课程。我们还发现,在训练过程中动态地筛选出零上风的提示,并构建包罗来自多种能力的混合提示的训练批次,对于提升模子在数学、推理和编码方面的能力至关重要。最后,从多种体系指令中采样对于确保模子在推理和编码方面保持其遵照指令的能力,并可以或许在多种任务中体现出色,是至关重要的。
为两万亿参数的模子扩展强化学习(RL),也由于其前所未有的规模,要求我们对底层的RL基础办法举行改革。我们优化了MoE(专家混合)并行化的速度计划,从而加快了迭代速度。我们开发了一个完全异步的在线RL训练框架,加强了机动性。与现有的分布式训练框架相比,后者为了将全部模子堆叠在内存中而牺牲了计算内存,我们的新基础办法可以或许机动地将不同的模子分配到单独的GPU上,并根据计算速度在多个模子之间均衡资源。这一创新使得训练效率比上一代提高了约10倍。
保障与防护措施
我们的目标是在开发最有用和最有帮助的模子的同时,防范并减轻最严峻的风险。我们依据我们在《开发者利用指南:人工智能防护》中概述的最佳实践来构建Llama 4。这包括在模子开发的每个阶段,从预训练到后期训练,再到可调的体系级防护措施,以保护开发者免受恶意用户的攻击。通过如许做,我们赋予开发者为他们的Llama支持的应用程序创造有帮助、安全且适应性强的体验的能力。
预训练和后期训练的防护措施
对于预训练,我们利用数据过滤与其他数据防护措施相结合,以保障模子的安全。对于后期训练,我们应用一系列技能,以确保我们的模子符合对用户和开发者有帮助的政策,包括在每个阶段提供适当水平的安全数据。
体系级方法
在体系级别,我们开源了多种防护措施,这些措施可以帮助辨认并防范大概有害的输入和输出。这些工具可以集成到我们的Llama模子中,并与其他第三方工具一起利用:
Llama防护:基于我们与MLCommons共同开发的危害分类法的输入/输出安全大型语言模子。开发者可以利用它来检测输入或输出是否违背了他们为其特定应用程序创建的政策。
提示防护:一个在大量攻击语料库上训练的分类模子,可以或许检测既包罗明确恶意提示(越狱攻击)又包罗注入输入的提示(提示注入)。
网络安全评估:帮助人工智能模子和产品开发者理解和降低天生式人工智能网络安全风险的评估。
我们从开发者那里得知,当这些工具可以根据他们的应用程序举行定制时,它们最为有用和有帮助。我们为开发者提供了一个开放的解决方案,以便他们可以根据本身的需求创建最安全和最有用的体验。我们还将继续与全球合作搭档合作,创建惠及开源社区的行业体系尺度。
评估和红队测试
我们在受控且可重复的方式下,对模子举行体系性的测试,涵盖各种场景和用例。这产生了数据,我们将这些数据重新纳入后期训练。
我们利用对抗性动态探测对模子举行压力测试,涵盖一系列主题,采用自动化和手动测试。我们在理解和评估埋伏模子风险方面取得了希望。此中一个例子是我们新开发的天生式攻击性署理测试(GOAT)。通过利用GOAT,我们通过模拟中等技能水平的对抗性行为者的多轮互动,解决了传统红队测试的局限性,帮助我们扩大测试覆盖范围并更快地发现漏洞。通过将自动化参加我们的测试工具包,GOAT使我们的专家人类红队成员可以或许专注于更具创新性的对抗性范畴,而自动化则专注于已知风险范畴。这使得该过程更加高效和有用,而且使我们可以或许构建更全面的风险量化和定性图景。
解决大型语言模子(LLM)中的偏见问题
众所周知,全部领先的大型语言模子都存在偏见问题——具体来说,它们在涉及有争议的政治和社会话题时,历史上倾向于左倾。这是由于互联网上可用的训练数据范例所致。
我们的目标是从人工智能模子中消除偏见,并确保Llama可以或许理解并表达有争议问题的两边观点。作为这项工作的一部分,我们继续使Llama更具相应性,以便它可以或许回复问题,对各种不同的观点做出回应,而不举行评判,而且不偏袒某些观点。
我们在这一版本中对这些积极取得了改进——Llama 4的体现明显优于Llama 3,而且与Grok相称:
Llama 4在涉及有争议的政治和社会话题上拒绝回复的比例总体上有所下降(从Llama 3.3的7%降至不到2%)。
Llama 4在拒绝回复的提示上更加均衡(在一组有争议的话题问题上,不平等回复拒绝的比例现在不到1%)。
我们的测试表明,Llama 4以强烈的政管理论回复的比例与Grok相称(是Llama 3.3的一半)。虽然我们取得了希望,但我们也知道我们另有更多的工作要做,并将继续积极进一步降低这一比例。
我们为迄今为止取得的希望感到自大,并致力于实现消除模子中总体偏见的目标。
探索Llama生态体系
虽然模子的智能很重要,但人们也希望模子可以或许以类似人类的速度举行个性化回复。作为我们迄今为止开始进的模子,Llama 4颠末优化,以满意这些需求。
当然,模子只是带来这些体验的更大生态体系的一部分。我们专注于整个堆栈,包括新的产品集成。我们期待继续与我们的合作搭档和开源社区举行的对话,而且一如既往,我们迫不及待地想看到人们在新的Llama生态体系中构建的丰富体验。
今天,请在http://llama.com和Hugging Face上下载Llama 4 Scout和Llama 4 Maverick模子。你可以在WhatsApp、Messenger、Instagram Direct和Meta.AI网站上体验利用Llama 4构建的Meta AI。
这项工作得到了人工智能社区合作搭档的支持。我们感谢并承认(按字母次序):埃森哲、亚马逊网络服务、AMD、Arm、CentML、Cerebras、Cloudflare、Databricks、Deepinfra、DeepLearning.AI、戴尔、德勤、Fireworks AI、谷歌云、Groq、Hugging Face、IBM Watsonx、Infosys、英特尔、Kaggle、联发科、微软Azure、Nebius、NVIDIA、ollama、甲骨文云、普华永道、高通、红帽、SambaNova、Sarvam AI、Scale AI、Scaleway、Snowflake、TensorWave、Together AI、vLLM、Wipro。
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
页:
[1]