LLaMa模子是Meta开源的大模子,模子参数从7B到65B不等,LLaMa-7B在大多数基准测试上超过了GPT3-173B,而LLaMa-65B和Chinchilla-70B、PaLM-540B相比也极具竞争力。
相比于ChatGPT或者GPT4来说,LLaMa大概效果上还有差距,但相比Closed AI,至少LLaMa论文和模子都开源出来了,目前hugging face已集成了LLaMa的代码实现和开源模子。学术界和工业界都可以在此基础上进行学习和研究。 LLaMa 模子先容
LLaMa的模子架构利用的是Transformer Decoder布局,但LLaMa在细节上做了一些优化:
1)Pre-normalization
Pre-norm很早就被提出,原生的transformer中利用的是post-norm,也就是在每个子层输出后进行归一化,相比post-norm,pre-norm是在每个子层输入前对输入的数据归一化,pre-norm的训练会更稳定,甚至都可以不需要做warm-up也能很好地训练transformer大模子。除此之外,LLaMa还是用RMSNorm(Root Mean Square Layer Normalization)代替了Layer Norm,RMSNorm是Layer Norm的一种变体,和Layer Norm中减去均值、除以方差的归一化方式差别,RMSNorm是直接除以均方根。
2)SwiGLU激活函数
LLaMa利用SwiGLU激活函数替代了原有的ReLU激活函数。SwiGLU是Swish和GLU两个函数的联合
此中 S w i s h = x c d o t s i g m o i d ( b e t a x ) Swish = x \\cdot sigmoid(\\beta x) Swish=xcdotsigmoid(betax), S w i G L U = S w i s h ( W x + b ) b i g o t i m e s ( V x + c ) SwiGLU=Swish(Wx + b) \\bigotimes (Vx + c) SwiGLU=Swish(Wx+b)bigotimes(Vx+c)
3)RoPE旋转位置编码
利用旋转位置编码替代绝对位置编码,详见https://spaces.ac.cn/archives/8265。 Alpaca 模子先容
Alpaca是斯坦福在LLaMa-7B的基础上监督微调出来的模子,斯坦福是用OpenAI的Text-davinci-003 API配合self-instruct技术,利用175个提示语种子自动生成了52K条提示-回复的指示数据集,在LLaMa-7B上微调得到的模子,在8张80G的A100上训练了3小时。
感谢你们的阅读和喜好,我收藏了很多技术干货,可以共享给喜好我文章的朋友们,如果你肯花时间沉下心去学习,它们一定能帮到你。
因为这个行业差别于其他行业,知识体系实在是过于庞大,知识更新也非常快。作为一个普通人,无法全部学完,以是我们在提升技术的时间,首先需要明确一个目标,然后制定好完备的计划,同时找到好的学习方法,这样才能更快的提升自己。 这份完备版的大模子 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【包管100%免费】