大模子入门(一)—— LLaMa/Alpaca/Vicuna
媒介LLaMa模子是Meta开源的大模子,模子参数从7B到65B不等,LLaMa-7B在大多数基准测试上超过了GPT3-173B,而LLaMa-65B和Chinchilla-70B、PaLM-540B相比也极具竞争力。
相比于ChatGPT或者GPT4来说,LLaMa大概效果上还有差距,但相比Closed AI,至少LLaMa论文和模子都开源出来了,目前hugging face已集成了LLaMa的代码实现和开源模子。学术界和工业界都可以在此基础上进行学习和研究。
LLaMa 模子先容
LLaMa的模子架构利用的是Transformer Decoder布局,但LLaMa在细节上做了一些优化:
1)Pre-normalization
Pre-norm很早就被提出,原生的transformer中利用的是post-norm,也就是在每个子层输出后进行归一化,相比post-norm,pre-norm是在每个子层输入前对输入的数据归一化,pre-norm的训练会更稳定,甚至都可以不需要做warm-up也能很好地训练transformer大模子。除此之外,LLaMa还是用RMSNorm(Root Mean Square Layer Normalization)代替了Layer Norm,RMSNorm是Layer Norm的一种变体,和Layer Norm中减去均值、除以方差的归一化方式差别,RMSNorm是直接除以均方根。
2)SwiGLU激活函数
LLaMa利用SwiGLU激活函数替代了原有的ReLU激活函数。SwiGLU是Swish和GLU两个函数的联合
此中 S w i s h = x c d o t s i g m o i d ( b e t a x ) Swish = x \\cdot sigmoid(\\beta x) Swish=xcdotsigmoid(betax), S w i G L U = S w i s h ( W x + b ) b i g o t i m e s ( V x + c ) SwiGLU=Swish(Wx + b) \\bigotimes (Vx + c) SwiGLU=Swish(Wx+b)bigotimes(Vx+c)
3)RoPE旋转位置编码
利用旋转位置编码替代绝对位置编码,详见https://spaces.ac.cn/archives/8265。
Alpaca 模子先容
Alpaca是斯坦福在LLaMa-7B的基础上监督微调出来的模子,斯坦福是用OpenAI的Text-davinci-003 API配合self-instruct技术,利用175个提示语种子自动生成了52K条提示-回复的指示数据集,在LLaMa-7B上微调得到的模子,在8张80G的A100上训练了3小时。
https://i-blog.csdnimg.cn/blog_migrate/db027ae13b57470e512d6b0ac66aca73.png
Vicuna 模子先容
Vicuna是在LLaMa-13B的基础上利用监督数据微调得到的模子,数据集来自于ShareGPT.com 产生的用户对话数据,共70K条。利用Pytorch FSDP在8张A100上训练了一天。相较于Alpaca,Vicuna在训练中将序列长度由512扩展到了2048,并且通过梯度检测和flash attention来解决内存问题;调整训练损失思量多轮对话,并仅根据模子的输出进行微调。通过GPT4来打分评测,Vicuna可以到达ChatGPT 90%的效果。并且还提供了可调用的分布式聊天服务FastChat。
https://i-blog.csdnimg.cn/blog_migrate/d76b8b1d200d980ac383e1524625d4d9.png
末了的末了
感谢你们的阅读和喜好,我收藏了很多技术干货,可以共享给喜好我文章的朋友们,如果你肯花时间沉下心去学习,它们一定能帮到你。
因为这个行业差别于其他行业,知识体系实在是过于庞大,知识更新也非常快。作为一个普通人,无法全部学完,以是我们在提升技术的时间,首先需要明确一个目标,然后制定好完备的计划,同时找到好的学习方法,这样才能更快的提升自己。
这份完备版的大模子 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【包管100%免费】
https://i-blog.csdnimg.cn/blog_migrate/877a86115fe5c0915d4b0a60536668ab.jpeg
大模子知识脑图
为了成为更好的 AI大模子 开发者,这里为各人提供了总的门路图。它的用处就在于,你可以按照上面的知识点去找对应的学习资源,包管自己学得较为全面。
https://i-blog.csdnimg.cn/direct/5cac48273d614c9996c485fe32ce82f9.png
经典书籍阅读
阅读AI大模子经典书籍可以帮助读者提高技术水平,开拓视野,掌握焦点技术,提高解决问题的本事,同时也可以鉴戒他人的履历。对于想要深入学习AI大模子开发的读者来说,阅读经典书籍是非常有必要的。
https://i-blog.csdnimg.cn/direct/209b04165a2a4e5dba7f9274cf7abacb.png
实战案例
光学理论是没用的,要学会跟着一起敲,要动手实操,才能将自己的所学运用到实际当中去,这时间可以搞点实战案例来学习。
https://i-blog.csdnimg.cn/direct/98e60092860742049149a5eb4dbd5496.png
口试资料
我们学习AI大模子一定是想找到高薪的工作,下面这些口试题都是总结当前最新、最热、最高频的口试题,并且每道题都有具体的答案,口试前刷完这套口试题资料,小小offer,不在话下
https://i-blog.csdnimg.cn/direct/c2c70128a0ed46f39d5a89320c66d76f.png
640套AI大模子陈诉合集
这套包含640份陈诉的合集,涵盖了AI大模子的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模子感兴趣的爱好者,这套陈诉合集都将为您提供宝贵的信息和启示。
https://i-blog.csdnimg.cn/direct/5ce90b1d8ef843fb8db8d74fa53cb276.png
这份完备版的大模子 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【包管100%免费】
https://i-blog.csdnimg.cn/blog_migrate/877a86115fe5c0915d4b0a60536668ab.jpeg
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
页:
[1]