莫张周刘王 发表于 2024-9-14 01:02:33

LLaMA 羊驼系大语言模型的前世今生

https://i-blog.csdnimg.cn/blog_migrate/52fe18fad48113f67525248695e697aa.png
关于 LLaMA

LLaMA是由Meta AI发布的大语言系列模型,完整的名字是Large Language Model Meta AI,直译:大语言模型元AI。Llama这个单词本身是指美洲大羊驼,以是社区也将这个系列的模型昵称为羊驼系模型。
Llama、Llama2 和 Llama3 是一系列由 Meta AI 开发的开源大型语言模型(LLMs)。
LLaMA

LLaMA是Meta AI公司于2023年2月发布的大型语言模型。作为该系列的初代模型,Llama 是一个纯粹的基座语言模型,计划目标是提供一个开放且高效的通用语言明白与天一生台。共有 7B、13B、33B、65B(650 亿)四种版本。
关于训练集,其来源都是公开数据集,无任何定制数据集,保证了其工作与开源兼容和可复现。整个训练数据集在 token 化之后大约包含 1.4T 的 token。其中,LLaMA-65B 和 LLaMA-33B 是在 1.4万亿个 token 上训练的,而最小的模型 LLaMA-7B 是在 1万亿个 token 上训练的。
关于模型性能,LLaMA 的性能非常优秀:具有 130 亿参数的 LLaMA 模型「在大多数基准上」可以胜过 GPT-3( 参数量达 1750 亿),而且可以在单块 V100 GPU 上运行;而最大的 650 亿参数的 LLaMA 模型可以媲美谷歌的 Chinchilla-70B 和 PaLM-540B。虽然其他强大的大语言模型通常只能通过有限的API访问,但Meta在非商业允许的情况下发布了LLaMA的模型权重,供研究人员参考和利用。
LLaMA2

2023年7月,Facebook母公司Meta推出了LLaMA2,在人工智能 (AI) 行业掀起波澜,LLaMA2是一种开源大语言模型 (LLM),旨在挑衅大型科技竞争对手的限制性做法。Meta免费发布 LLaMA2背后的代码和数据,使世界各地的研究人员能够利用和改进该技能。 Meta的首席执行官马克·扎克伯格不绝开门见山地强调开源软件对于刺激创新的紧张性。
Meta 训练并发布了三种模型巨细的 Llama 2:70、130 和 700 亿个参数。模型架构与 Llama 1 模型基本保持稳定,但用于训练根本模型的数据增加了 40%。随附的预印本还提到了一个具有 34B 参数的模型,该模型大概在未来满意安全目标后发布。
Llama 2 包括根本模型和针对对话举行微调的模型,称为 Llama 2 - 聊天。与 Llama 1 进一步不同的是,全部模型都附带权重,并且对于很多商业用例都是免费的。然而,由于一些剩余的限制,Llama开源的描述受到了开源倡议构造(以维护开源定义而闻名)的争议。
Llama2 是 Llama 系列的下一代版本,标志着对初代模型的紧张升级。以下是一些关键特性:

[*]SOTA 性能:Llama2 被描述为新的 state-of-the-art(SOTA)开源大型语言模型,意味着在发布时其性能在相关基准测试或现实应用中处于业界领先水平。
[*]商业允许证:Llama2 附带商业允许证,这表明虽然它是开源的,但利用它大概必要遵循特定的允许条款,大概是为了确保模型的合理利用并掩护知识产权。
[*]模型规模:Llama2 的最大模型版本拥有约 700 亿个参数,展示了其在模型复杂度和潜在能力上的提升。
[*]训练数据:Llama2 的训练数据规模显著增加,利用的 token 数量翻倍至 2 万亿,这加强了模型对广泛语言现象的明白和天生能力。
[*]模型结构:虽然详细架构细节未给出,但提到的 MHA(多头注意力机制)、MQA(多查询注意力)、GQA(全局查询注意力)等组件大概暗示着 Llama2 在 Transformer 解码器部分接纳了创新的计划,以进步模型的信息捕获和推理能力。
LLaMA3

Llama3 是 Llama 系列的最新迭代,展现了显著的技能进步和战略意义:

[*]发布与时间节点:Llama3 于2024年4月18日发布,距离 Llama2 的发布仅已往了9个月,表明Meta AI 在短时间内快速推进了技能研发。
[*]模型规模与性能:

[*]参数数量:Llama3 提供了不同规模的版本,包括最小的 80 亿参数版本和最大规划中的 4050 亿参数版本。即使最小版本与 Llama2 最大版本(700亿参数)的性能处于同一量级,表现出Llama3在模型效率上的提升。
[*]性能对比:Llama3 的性能被描述为直逼 GPT-4,这暗示其在某些使命上大概与 OpenAI 的旗舰模型相称甚至有所逾越,体现了其在语言明白和天生领域的强大竞争力。

[*]训练数据与效率:

[*]数据规模:Llama3 基于超过 15 万亿个 token 的公开数据预训练,数据量是 Llama2 的七倍,反映了 Meta AI 对于大规模数据驱动模型性能提升的器重。
[*]训练效率:Llama3 的训练效率相较于 Llama2 提升了三倍,这大概得益于算法优化、硬件加快或分布式训练策略的进步,使得在类似时间内能够完成更多的训练迭代或处置处罚更大规模的数据。

[*]集成与应用:

[*]假造助手:Llama3 将被整合到 Meta 的假造助手服务中,使其成为 Facebook、Instagram、WhatsApp、Messenger 等平台上免费利用的开始辈 AI 应用程序之一,加强了这些社交平台的智能化交互体验。
[*]云服务支持:亚马逊云科技(Amazon Web Services, AWS)官方博客提供了在 SageMaker Studio 中利用 Llama3 的详细指南,说明该模型得到了主流云服务商的支持,便于开发者和研究人员便捷地摆设和利用。

综上所述,Llama、Llama2 和 Llama3 代表了 Meta AI 在大型语言模型开发上的一连创新与进步。从Llama到Llama2,再到Llama3,这一系列模型不但在模型规模、训练数据量和训练效率上不停突破,而且在架构计划、允许策略以及现实应用场景中均展现出显著的迭代与升级。Llama3作为最新版本,以其逼近 GPT-4 的性能、大规模数据驱动的学习以及高效训练流程,巩固了 Meta 在开源大模型领域的领先职位,并推动了人工智能在社交、商业和其他领域的广泛应用。
https://i-blog.csdnimg.cn/blog_migrate/16922b98487ccaeddfa1b0c4576421ac.png

免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
页: [1]
查看完整版本: LLaMA 羊驼系大语言模型的前世今生