DataWhale大语言模型-大模型技术基础

打印 上一主题 下一主题

主题 1006|帖子 1006|积分 3018

什么是大语言模型



  • 定义:通常是指具有超大规模参数的预练习语言模型
与传统的语言模型相比,大语言模型的构建过程涉及到更为复杂的练习方法,进而显现了强盛的天然语言明确本领和复杂任务求解本领(通过文本天生的情势)


  • 架构:主要作为Transformer解码器的架构
  • 练习:练习的内容包括预练习(base model)和后练习(instruct model)

预练习和后练习之间的对比


大模型预练习(Pre-training)



  • 利用与下游任务无关的大规模数据进行模型参数的初始练习
主要的工作任务可以分成以下步骤:


  • 解码器架构+预测下一个词:这是由于GPT系列模型的出圈,该方法得到了有效的验证,已经成为了主流的大语言模型的技术路径
  • 大量的高质量的数据:为了预练习大语言模型需要进行大规模的文本数据,所以数据的数量,数据质量都是十分关键的
目前预练习的过程思量各种细节,所以需要研发职员有丰富的练习经验和异常处置惩罚的本领,从而避免算力资源的浪费,进步模型预练习的乐成几率
大语言模型后练习(Post-Training)

这一步可以明确为将一个泛化本领很强的模型不停去精修某一门技术,达到完成指定任务的本领,这一过程可以明确为大模型的微调过程
目前来讲比力常见的微调技术被称为指令微调SFT
指令微调(Instruction Tuning)



  • 利用输入与输出配对的指令数据对模型进行微调
  • 提升模型通过问答模式进行任务求解的本领

人类对齐(Human Alignment)

除了要提升任务的解决本领,还需要将大语言模型与人类的期望,需求以及代价观对齐,这对于大模型的部署与应用具有重要的意义


  • 将大语言模型与人类的期望,需求以及代价观对齐
  • 基于人类反馈的强化学习对齐方法(RLHF)
在RLHF算法当中,需要标注职员针对大语言模型所天生的多条输出进行偏好排序,并利用偏好数据练习奖励模型,用于判断模型的输出质量

扩展定律



  • 通过扩展参数规模以及数据规模和计算算力,大语言模型的本领会出现明显的提升
  • 扩展定律在本次大模型的浪潮当中起到了至关重要的作用
    也就是说通过扩展带来的性能提升通常明显高于通过改进架构以及算法等方面所带来的改进,使得大语言模型的本领超越了小语言模型的本领

KM扩展定律

由OpenAI团队所提出,首次建立了神经语言模型性能与参数规模(N),**数据规模(D)计算算力©**之间的幂律关系

                                    L                         (                         ⋅                         )                              L(\cdot)                  L(⋅)用来表示以                                   n                         a                         t                              nat                  nat(用来表示以                                   e                              e                  e为底信息量的天然对数)为单元的交叉熵损失,其中                                             N                            c                                  ,                                   D                            c                                  ,                                   C                            c                                       N_c,D_c,C_c                  Nc​,Dc​,Cc​是实验性常数数值,分别对应于非嵌入参数的数量,练习数据数量以及实际的算力开销
Chinchilla扩展定律

由DeepMind团队所提出的另一种情势的扩展定律

其中                                   a                              a                  a和                                   b                              b                  b决定了参数规模以及数据规模的资源分配优先级


  • 当a>b时,应该用更多的算力来进步参数规模
  • 当b>a时,应该利用更多的算力来进步数据规模
深入讨论


可预测扩展可以简朴的明确为可以通过练习一个小模型去预测一个大模型的性能,这种方法其实很显着的问题就在于,模型的参数量大了的话那么很轻易出现预测失败的问题

由于扩展法制存在一定的范围性,当模型的巨细高出一定规模的时候,需要提出以下方法–涌现本领
涌现本领

非情势化的定义:在小型的模型当中并不存在但是在大模型当中出现的本领
这里可以我以为(不严谨哈)可以这样说:量变所引起的质变,由于模型的扩展高出一定的规模,使其本领得到了一定的提升(可以说是跃升)

代表性本领

也就是具有广泛性的一些本领
指令遵循(Instruction Following)



  • 大语言模型能够按照天然语言的指令来实行对应的任务
  • 可以通过高质量指令数据微调的方式习得一定的通用指令遵循本领

上下文学习(In-context Learning)



  • 在提示当中为语言模型提供天然语言指令和任务示例,无需显式的练习大概梯度更新,仅通过输入文本的单词序列就能为测试样本天生预测的输出

渐渐推理

在大语言模型当中利用头脑链的提示计谋来加强推理性能


  • 在提示当中引入任务相干的中间推理步骤来加强复杂任务的求解,从而获得更加可靠的答案

涌现本领与扩展定律的关系


参考资料

Datawhale学习链接:https://www.datawhale.cn/learn/content/107/3287

免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

x
回复

举报

0 个回复

倒序浏览

快速回复

您需要登录后才可以回帖 登录 or 立即注册

本版积分规则

钜形不锈钢水箱

论坛元老
这个人很懒什么都没写!
快速回复 返回顶部 返回列表