用户名
Email
论坛
潜水/灌水快乐,沉淀知识,认识更多同行。
ToB圈子
加入IT圈,遇到更多同好之人。
朋友圈
看朋友圈动态,了解ToB世界。
ToB门户
了解全球最新的ToB事件
博客
Blog
排行榜
Ranklist
文库
业界最专业的IT文库,上传资料也可以赚钱
下载
分享
Share
导读
Guide
相册
Album
记录
Doing
应用中心
帖子
本版
文章
帖子
ToB圈子
用户
免费入驻
产品入驻
解决方案入驻
公司入驻
案例入驻
登录
·
注册
账号登录
立即注册
找回密码
用户名
自动登录
找回密码
密码
登录
立即注册
首页
找靠谱产品
找解决方案
找靠谱公司
找案例
找对的人
专家智库
悬赏任务
圈子
SAAS
IT评测·应用市场-qidao123.com技术社区
»
论坛
›
数据库
›
Oracle
›
Llama系列关键知识总结
Llama系列关键知识总结
兜兜零元
论坛元老
|
2025-1-2 16:25:47
|
显示全部楼层
|
阅读模式
楼主
主题
1810
|
帖子
1810
|
积分
5430
系列文章目次
第一章:LoRA微调系列笔记
第二章:Llama系列关键知识总结
第三章:LLaVA模型讲授与总结
Llama: Open and Efficient Foundation Language Models
关键要点
Meta发布的完全开源的大语言模型,参数量从7B到65B,llama只在
公开数据集上进行训练
,但依然取得了强大的性能。LLaMa-13B在很多基准测试中都优于GPT-3(175B)
GPT-3把模型的参数量扩大到175B并取得了惊人的涌现本领,使得后续研究者都信赖,随着模型参数量的增大,模型必将取得更好的性能,因今后续的很多工作都放在了扩大大语言模型的参数量级,但扩大参数量级真的就是唯一的研究路径了吗?我们是不是忽视了数据对模型性能的影响?
DeepMind在NeurIPS2022上发表Training Compute-Optimal Large Language Models论文,发现:
训练最优性能的LLM模型,模型的参数量和训练数据规模需要同比增大
。因此,当我们在相同的计算资源下,LLM的性能不但可以通过增长参数量来实现性能提升,也可以通过提升数据量来提升,因此数据也参数量级同样重要。
但假如从推理本钱思量,大部分用户是不需要自己训练LLM的,只是用LLM进行推理就可以了,因此思量推理的性能,小参数的LLM是更加友爱的,
LLaMa 沿着小 LLM 配大数据训练的指导头脑
,训练了一系列性能刁悍的语言模型,参数量从 7B 到 65B。比方,LLaMA-13B 比 GPT-3(175B)小10倍,但是在大多数基准测试中都优于 GPT-3。大一点的 65B 的 LLaMa 模型也和 Chinchilla 或者 PaLM-540B 的性能相称。
LLaMa模型架构:
与GPT等天生模型雷同,LLaMA也只使用了Transformer的解码器
Pre-normalization:为了提高训练稳定性,LLaMa 对每个 Transformer 的子层的输入进行归一化,而不是对输出进行归一化。使用 RMSNorm归一化函数。
SwiGLU激活函数
Rotary Embedding LLaMa 去掉了绝对位置编码,使用旋转位置编码
Llama2
预训练语料库
的大小增长了 40%,模型的
上下文长度翻倍
,并采用了
分组查询留意力
。发布了 7B、13B 和 70B 参数的 Llama 2 变体
与 Llama 1的重要架构差别包括
增长上下文长度
和
分组查询留意力 (GQA)
分组查询留意力 (GQA)
增长上下文长度比较好理解,简单的在训练前规定了
最大上下文长度为4096
,本文重要先容LLaMA2中改进的留意力机制。
MHA(Multi-Head Attention):输入数据分成多个头,每个头独立进行留意力计算;每个head完成QKV计算后进行相加输出。
MQA(Multi-Query Attention):Q仍然是多头的,KV是共享的;举例来说,以ChatGLM2-6B为例,一共28层,32个留意力头,若采用MHA,则Q、K、V矩阵各有28×32个,而采用MQA的方式则整个模型包罗28×32个Q矩阵,28×1个K矩阵,28×1个V矩阵。这种方法在提高推理服从的同时,也可以或许保持模型的性能。
GQA(Group-Query Attention):Q仍然是多头的,KV是分组共享的,减少了KV缓存所需要的缓存空间,同时也避免了参数减少导致的精度丧失严峻,在参数和精度两方面进行了平衡。
Llama3
关键信息
2024年4月,Meta 重磅推出了Meta Llama 3大语言模型
从模型架构上看,LLaMA 3和LLaMA 2基本没有区别,同样使用了Transformer的Decoder-only架构
Llama 3在超过
15T
的token上进行预训练,全部数据都来自公开可用的来源。我们的训练数据集比用于Llama 2的数据集大了
七倍
,并且包括了四倍的代码。为了预备即将到来的多语言用例,超过5%的Llama 3预训练数据集由高质量的
非英语数据构成
,覆盖了超过30种语言。然而,我们不期望在这些语言中到达与英语相同的性能程度。
引用:
LLaMa系列模型详解(原理先容、代码解读):LLaMa
LLaMa系列模型详解(原理先容、代码解读):LLaMA 2
LLaMa系列模型详解(原理先容、代码解读):LLaMA 3
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
继续阅读请点击广告
本帖子中包含更多资源
您需要
登录
才可以下载或查看,没有账号?
立即注册
x
回复
举报
0 个回复
倒序浏览
返回列表
快速回复
高级模式
B
Color
Image
Link
Quote
Code
Smilies
您需要登录后才可以回帖
登录
or
立即注册
本版积分规则
发表回复
回帖并转播
回帖后跳转到最后一页
发新帖
回复
兜兜零元
论坛元老
这个人很懒什么都没写!
楼主热帖
数据库的建立、增、删、改、查 ...
深入解析kubernetes中的选举机制 ...
【黄啊码】MySQL入门—4、掌握这些数据 ...
clang-format的使用
Oracle调度器Scheduler
MySQL安装配置
V Rising 服务器搭建
02-MySQL高级
2万多条健康网站文章大全ACCESS\EXCEL ...
【黄啊码】MySQL入门—5、数据库小技巧 ...
标签云
国产数据库
集成商
AI
运维
CIO
存储
服务器
浏览过的版块
人工智能
Java
网络安全
快速回复
返回顶部
返回列表