大模子入门(一)—— LLaMa/Alpaca/Vicuna

打印 上一主题 下一主题

主题 1015|帖子 1015|积分 3045

媒介

LLaMa模子是Meta开源的大模子,模子参数从7B到65B不等,LLaMa-7B在大多数基准测试上超过了GPT3-173B,而LLaMa-65B和Chinchilla-70B、PaLM-540B相比也极具竞争力。
相比于ChatGPT或者GPT4来说,LLaMa大概效果上还有差距,但相比Closed AI,至少LLaMa论文和模子都开源出来了,目前hugging face已集成了LLaMa的代码实现和开源模子。学术界和工业界都可以在此基础上进行学习和研究。
LLaMa 模子先容
LLaMa的模子架构利用的是Transformer Decoder布局,但LLaMa在细节上做了一些优化:
1)Pre-normalization
Pre-norm很早就被提出,原生的transformer中利用的是post-norm,也就是在每个子层输出后进行归一化,相比post-norm,pre-norm是在每个子层输入前对输入的数据归一化,pre-norm的训练会更稳定,甚至都可以不需要做warm-up也能很好地训练transformer大模子。除此之外,LLaMa还是用RMSNorm(Root Mean Square Layer Normalization)代替了Layer Norm,RMSNorm是Layer Norm的一种变体,和Layer Norm中减去均值、除以方差的归一化方式差别,RMSNorm是直接除以均方根。
2)SwiGLU激活函数
LLaMa利用SwiGLU激活函数替代了原有的ReLU激活函数。SwiGLU是Swish和GLU两个函数的联合
此中                                   S                         w                         i                         s                         h                         =                         x                                 c                         d                         o                         t                         s                         i                         g                         m                         o                         i                         d                         (                                 b                         e                         t                         a                         x                         )                              Swish = x \\cdot sigmoid(\\beta x)                  Swish=xcdotsigmoid(betax),                                   S                         w                         i                         G                         L                         U                         =                         S                         w                         i                         s                         h                         (                         W                         x                         +                         b                         )                                 b                         i                         g                         o                         t                         i                         m                         e                         s                         (                         V                         x                         +                         c                         )                              SwiGLU=Swish(Wx + b) \\bigotimes (Vx + c)                  SwiGLU=Swish(Wx+b)bigotimes(Vx+c)
3)RoPE旋转位置编码
利用旋转位置编码替代绝对位置编码,详见https://spaces.ac.cn/archives/8265。
Alpaca 模子先容
Alpaca是斯坦福在LLaMa-7B的基础上监督微调出来的模子,斯坦福是用OpenAI的Text-davinci-003 API配合self-instruct技术,利用175个提示语种子自动生成了52K条提示-回复的指示数据集,在LLaMa-7B上微调得到的模子,在8张80G的A100上训练了3小时。

Vicuna 模子先容
Vicuna是在LLaMa-13B的基础上利用监督数据微调得到的模子,数据集来自于ShareGPT.com 产生的用户对话数据,共70K条。利用Pytorch FSDP在8张A100上训练了一天。相较于Alpaca,Vicuna在训练中将序列长度由512扩展到了2048,并且通过梯度检测和flash attention来解决内存问题;调整训练损失思量多轮对话,并仅根据模子的输出进行微调。通过GPT4来打分评测,Vicuna可以到达ChatGPT 90%的效果。并且还提供了可调用的分布式聊天服务FastChat。

末了的末了

感谢你们的阅读和喜好,我收藏了很多技术干货,可以共享给喜好我文章的朋友们,如果你肯花时间沉下心去学习,它们一定能帮到你。
因为这个行业差别于其他行业,知识体系实在是过于庞大,知识更新也非常快。作为一个普通人,无法全部学完,以是我们在提升技术的时间,首先需要明确一个目标,然后制定好完备的计划,同时找到好的学习方法,这样才能更快的提升自己。
这份完备版的大模子 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【包管100%免费】

大模子知识脑图

为了成为更好的 AI大模子 开发者,这里为各人提供了总的门路图。它的用处就在于,你可以按照上面的知识点去找对应的学习资源,包管自己学得较为全面。

经典书籍阅读

阅读AI大模子经典书籍可以帮助读者提高技术水平,开拓视野,掌握焦点技术,提高解决问题的本事,同时也可以鉴戒他人的履历。对于想要深入学习AI大模子开发的读者来说,阅读经典书籍是非常有必要的。

实战案例

光学理论是没用的,要学会跟着一起敲,要动手实操,才能将自己的所学运用到实际当中去,这时间可以搞点实战案例来学习。

口试资料

我们学习AI大模子一定是想找到高薪的工作,下面这些口试题都是总结当前最新、最热、最高频的口试题,并且每道题都有具体的答案,口试前刷完这套口试题资料,小小offer,不在话下

640套AI大模子陈诉合集

这套包含640份陈诉的合集,涵盖了AI大模子的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模子感兴趣的爱好者,这套陈诉合集都将为您提供宝贵的信息和启示。

这份完备版的大模子 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【包管100%免费】


免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

x
回复

使用道具 举报

0 个回复

倒序浏览

快速回复

您需要登录后才可以回帖 登录 or 立即注册

本版积分规则

西河刘卡车医

论坛元老
这个人很懒什么都没写!
快速回复 返回顶部 返回列表