内容摘要
- LLaMA大模子背景介绍
- LLaMA网络结构相比Transformer的改进
- LLaMA中文化Atom大模子简述
- 在Python中调用HuggingFace LLaMA模子
- 基于text-generation-webui部署LLaMA问答平台
LLaMA大模子背景介绍
LLaMA是Meta AI公司在2023年2月发布的开源大模子,在开放基准上有着非常出色的表现,是迄今为止最流行的开放语言模子之一。
同期谷歌的PaLM大模子,OpenAI的GPT-4都采用闭源的方式,不能从源码来剖析模子的结构,LLaMA的开源降低了大模子的研究门槛,后续许多大模子都是鉴戒或沿用了LLaMA的模子框架。另一方面由于LLaMA的开源,开发者可以将LLaMA作为基座模子举行当地部署搭建,用新的语料继承预训练或者微调,从而包管了数据的安全性不需要发送给第三方。
LLaMA网络结构相比Transformer的改进
LLaMA和GPT系列一样采用Transformer的堆叠Decoder,以上下文预测下一个词作为预测目的,在海量文本上举行无监督预训练。LLaMA的训练语料是以英语为主的拉丁语系,在分词方面,LLaMA采用sentencepiece实现的Byte-level BPE对语料举行分词编码。
和标准的Transformer相比,LLaMA鉴戒了同期其他的研究结果对模子的局部结构举行了调整,包罗
- 前置层归一化+RMSNorm归一化函数
- 门控线性单元和SwiGLU激活函数
- 旋转位置编码RoPE
1.前置层归一化+RMSNorm归一化函数
为了使模子训练更加稳固,在Decoder单元将第一个层归一化移动到多头留意力之前,将第二个层归一化移动到前馈流传层之前,同时残差连接位置调整到多头留意力层和前馈流传层之后,如下图所示
在归一化的盘算方式上,采用RMSNorm函数,相比于标准的LayerNorm舍弃了均值的影响,是均值为0时LayerNorm的特例,使得盘算变得简单加快模子训练和推理效率。
2.门控线性单元和SwiGLU激活函数
LLaMA采用门控线性单元GLU共同Swish激活函数,代替了标准transformer的前馈流传层全连接+ReLU的结构,SwishGLU的情势在大部门测评中被证实比全连接+ReLU更加有效。SwiGLU的盘算公式如下
3.旋转位置编码RoPE
LLaMA采用旋转位置编码Rotary Position Embedding,RoPE的思想是找到一个变换将位置信息注入Query和Key向量中,如许留意力中的Query和Key的内积盘算能够感知到两者的相对位置距离,这个变换的求解结果对应为向量旋转,因此取名为旋转位置编码。
LLaMA中文化Atom大模子简述
LLaMA对中文的支持较差,训练数据中中文占比很少,且词表对中文字符的覆盖度不敷,因此本篇采用Llama中文社区推出的原子大模子Atom,它基于LLaMA架构在中文语料上重新预训练,并且拓充了词表进步了模子对中文文本表征能力和编码解码速度,可在HuggingFace模子仓库举行下载
在Python中调用HuggingFace LLaMA模子
根据中文LLaMA社区官网的案例快速开始,在Python中使用HuggingFace对Atom-7B举行调用测试如下
- import torch
- from transformers import AutoTokenizer, LlamaForCausalLM
- model = LlamaForCausalLM.from_pretrained('./Atom-7B', torch_dtype=torch.float16)
- model = model.to("cuda").eval()
- tokenizer = AutoTokenizer.from_pretrained('./Atom-7B', use_fast=False)
- tokenizer.pad_token = tokenizer.eos_token
- input_ids = tokenizer(['<s>Human: 请给一个去苏州旅游的攻略\n</s><s>Assistant: '], return_tensors="pt",
- add_special_tokens=False).input_ids.to('cuda')
- generate_input = {
- "input_ids": input_ids,
- "max_new_tokens": 512,
- "do_sample": True,
- "top_k": 50,
- "top_p": 0.95,
- "temperature": 0.3,
- "repetition_penalty": 1.3,
- "eos_token_id": tokenizer.eos_token_id,
- "bos_token_id": tokenizer.bos_token_id,
- "pad_token_id": tokenizer.pad_token_id
- }
- generate_ids = model.generate(**generate_input)
- text = tokenizer.decode(generate_ids[0])
- print(text)
复制代码 将问题:“请给一个去苏州旅游的攻略”拼入Human Assistant提示词模板,文本天生如下
- <s> Human: 请给一个去苏州旅游的攻略
- </s><s> Assistant: 1. 交通:建议乘坐高铁或飞机前往,距离上海约2小时车程。也可以选择自驾车或者公共汽车出行。
- 2. 住宿推荐:可以住在市中心的酒店、民宿等住宿设施中;也可以考虑在风景优美的郊区寻找合适的住所。
- 3. 推荐景点:拙政园(中国四大名园之一)、狮子林(园林艺术瑰宝)、留园(江南古典私家花园的典范)、虎丘塔(古代建筑和石刻艺术的代表)等等。
- 4. 建议游玩时间:5-7天为宜,每天安排一到两个主要景区游览即可。
- 5. 注意事项:带好身份证件以及必要的证件如护照签证等,注意天气变化并携带雨具防晒用品等物品。遵守当地法律法规及风俗习惯和文化禁忌。尊重当地的文化传统和环境保护意识。避免与当地人发生冲突或其他不愉快的事情。
- 6. 其他信息:了解一些关于苏州的历史文化和风土人情的知识是非常有益的。还可以参加一些本地的特色活动体验一下当地的生活方式与文化氛围。最后记得留下自己的旅行心得和经验分享哦!
- </s>
复制代码 基于text-generation-webui部署LLaMA问答平台
text-generation-webui是一个用于运行大型语言模子的Gradio Web用户界面,他可以将当地的模子文件部署为一个Web服务,实现模子推理,问答对话,模子训练,参数管理等功能。
先通过anaconda创建Python虚拟环境
- $ conda create -n textgen python=3.8
- $ conda activate textgen
复制代码 下载text-generation-webui项目到当地,安装requirements中所需要的依赖
- $ git clone https://github.com/oobabooga/text-generation-webui
- $ cd text-generation-webui
- $ pip install -r <requirements file according to table below>
复制代码 安装过程中可能会有各种版本不兼容的错误,逐个解决即可,安装完成启动server.py
- $ cd text-generation-webui
- $ python server.py
- 2023-12-15 16:42:44 INFO:Loading the extension "gallery"...
- Running on local URL: http://127.0.0.1:7861
- To create a public link, set `share=True` in `launch()`.
复制代码 欣赏器打开127.0.0.1:7861进入text-generation-webui客户端,进入model页加载模子,提前将Atom-7B模子目录放置到text-generation-webui路径下的models目录下,然后在网页端选择Atom-7B,选择bf16精度,点击load加载模子
加载成功后会提示已经成功加载模子
回到Chat界面,在文本框中输入内容,点击Generate即可完成文本天生
在Parameters界面可以对generate的参数举行调整吗,比如最大天生单词数,温度系数,top-k,top-p等。
其他功能读者可自行测试,本文作为对LLaMA的简单介绍和快速开始,后续会对此中部门技术细节做深入分析,全文完毕。
学习策略调整建议
鉴于当前市场的积极态势,对于初学者而言,学习LLM不应仅仅停顿在理论层面,更应留意实践能力和创新思维的造就。以下是一些针对当前行情的学习策略建议。
一、大模子全套的学习门路
学习大型人工智能模子,如GPT-3、BERT或任何其他先进的神经网络模子,需要体系的方法和一连的努力。既然要体系的学习大模子,那么学习门路是必不可少的,下面的这份门路能帮助你快速梳理知识,形成本身的体系。
L1级别:AI大模子时代的华丽登场
L2级别:AI大模子API应用开发工程
L3级别:大模子应用架构进阶实践
L4级别:大模子微调与私有化部署
一样寻常掌握到第四个级别,市场上大多数岗位都是可以胜任,但要还不是天花板,天花板级别要求更加严格,对于算法和实战是非常苛刻的。建议普通人掌握到L4级别即可。
以上的AI大模子学习门路,不知道为什么发出来就有点糊,高清版可以微信扫描下方CSDN官方认证二维码免费领取【包管100%免费】
二、640套AI大模子报告合集
这套包含640份报告的合集,涵盖了AI大模子的理论研究、技术实现、行业应用等多个方面。无论您是科研职员、工程师,还是对AI大模子感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。
三、大模子经典PDF籍
随着人工智能技术的飞速发展,AI大模子已经成为了当今科技范畴的一大热门。这些大型预训练模子,如GPT-3、BERT、XLNet等,以其强大的语言理解和天生能力,正在改变我们对人工智能的认识。 那以下这些PDF籍就是非常不错的学习资源。
四、AI大模子商业化落地方案
作为普通人,入局大模子时代需要一连学习和实践,不断进步本身的技能和认知水平,同时也需要有责任感和伦理意识,为人工智能的健康发展贡献气力。
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。 |