马上注册,结交更多好友,享用更多功能,让你轻松玩转社区。
您需要 登录 才可以下载或查看,没有账号?立即注册
x
媒介:大型语言模子(LLMs)的发展进程可以说黑白常长,从早期的GPT模子一起走到了今天这些复杂的、公开权重的大型语言模子。最初,LLM的练习过程只关注预练习,但厥后渐渐扩展到了包罗预练习和后练习在内的完整流程。后练习通常涵盖监视指导微调和对齐过程,而这些在ChatGPT的推广下变得广为人知。
自ChatGPT首次发布以来,练习方法学也在不断进化。在这几期的文章中,我将回顾近1年中在预练习和后练习方法学上的最新希望。
关于LLM开辟与练习流程的概览,特别关注本文中讨论的新型预练习与后练习方法
每个月都有数百篇关于LLM的新论文提出各种新技能和新方法。然而,要真正相识哪些方法在实践中效果更好,一个非常有效的方式就是看看最近最先辈模子的预练习和后练习流程。幸运的是,在近1年中,已经有四个重要的新型LLM发布,而且都附带了相对具体的技能陈诉。
在本文中,我将重点介绍以下模子中的Qwen 2预练习和后练习流程:
• 阿里巴巴的 Qwen 2
• 苹果的 智能底子语言模子
• 谷歌的 Gemma 2
• Meta AI 的 Llama 3.1
我会完整的介绍列表中的全部模子,但介绍顺序是基于它们各自的技能论文在arXiv.org上的发表日期,这也偶合地与它们的字母顺序一致。
1. 阿里的 Qwen 2
我们先来说说 Qwen 2,这是一个非常强大的 LLM 模子家族,与其他主流的大型语言模子具有竞争力。不外,不知为何,它的知名度不如 Meta AI、微软和谷歌那些公开权重的模子那么高。
1.1 Qwen 2 概览
在深入探究 Qwen 2 技能陈诉中提到的预练习和后练习方法之前,我们先简单总结一下它的一些核心规格。
Qwen 2 系列模子共有 5 种版本,包罗 4 个通例(麋集型)的 LLM,分别为 5 亿、15 亿、70 亿和 720 亿参数。此外,还有一个专家混合模子(Mixture-of-Experts),参数目为 570 亿,但每次仅激活 140 亿参数。(由于这次不重点讨论模子架构细节,我就不深入讲授专家混合模子了,不外简单来说,它与 Mistral AI 的 Mixtral 模子类似,但激活的专家更多。如果想相识更高层次的概述,可以参考这一篇知识《模子融合、专家混合与更小型 LLM 的未来》中的 Mixtral 架构部分。)
Qwen 2 模子的一大亮点是它在 30 种语言中的出色多语言能力。此外,它的词汇量非常大,达到 151,642 个 token。(相比之下,Llama 2 的词汇量为 32k,而 Llama 3.1 则为 128k)。根据经验法则,词汇量增长一倍,输入 token 数目会减少一半,因此 LLM 可以在相同输入中容纳更多 token。这种大词汇量特别实用于多语言数据和编程场景,由于它能覆盖标准英语词汇之外的单词。
下面是与其他 LLM 在 MMLU 基准测试中的简要对比。(必要注意的是,MMLU 是一个多选基准测试,因此有其局限性,但仍是评估 LLM 性能的最受欢迎方法之一。)
MMLU基准测试得分,针对最新的开源权重模子(分数越高越好)。这个图中的得分是从每个模子的官方研究论文中网络的。
1.2 Qwen 2 预练习
Qwen 2 团队对参数规模为 15 亿、70 亿和 720 亿的模子进行了练习,利用了 7 万亿个练习 token,这是一个公道的规模。作为对比,Llama 2 模子利用了 2 万亿个 token,Llama 3.1 模子利用了 15 万亿个 token。
有趣的是,参数规模为 5 亿的模子利用了 12 万亿个 token 进行练习。然而,研究人员并没有效这个更大的 12 万亿 token 数据集来练习其他模子,由于在练习过程中并未观察到性能提升,同时额外的盘算本钱也难以公道化。
他们的一个重点是改进数据过滤流程,以去除低质量数据,同时加强数据混合,从而提升数据的多样性——这一点我们在分析其他模子时会再次提到。
有趣的是,他们还利用了 Qwen 模子(尽管没有明确说明细节,我猜是指前一代的 Qwen 模子)来天生额外的预练习数据。而且,预练习包罗了“多任务指令数据……以加强模子的上下文学习能力和指令遵循能力。”
此外,他们的练习分为两个阶段:通例预练习和长上下文预练习。在预练习的最后阶段,他们利用了“高质量、长文本数据”将上下文长度从 4,096 token 增长到 32,768 token。
Qwen 2 预练习技能总结。‘持续预练习’指的是两阶段预练习,研究人员先辈行了通例预练习,然后接着进行长上下文的持续预练习。
(遗憾的是,这些技能陈诉的另一个特点是关于数据集的细节较少,因此如果总结看起来不够具体,是由于公开的信息有限。)
1.3 Qwen 2 后练习
Qwen 2 团队接纳了流行的两阶段后练习方法,起首辈行监视式指令微调(SFT),在 50 万个示例上进行了 2 个 epoch 的练习。这一阶段的目标是进步模子在预设场景下的响应正确性。
典型的大语言模子开辟流程
在完成 SFT 之后,他们利用直接偏好优化(DPO)来将大语言模子(LLM)与人类偏好对齐。(有趣的是,他们的术语将其称为基于人类反馈的强化学习,RLHF。)正如我几周前在《LLM预练习和奖励模子评估本领》文章中所讨论的,由于相比其他方法(例如结合 PPO 的 RLHF)更加简单易用,SFT+DPO 方法好像是当前最流行的偏好调优计谋。
对齐阶段自己也分为两个步骤。第一步是在现有数据集上利用 DPO(离线阶段);第二步是利用奖励模子形成偏好对,并进入“在线”优化阶段。在这里,模子在练习中会天生多个响应,奖励模子会选择优化步骤中更符合偏好的响应,这种方法也常被称为“拒绝采样”。
在数据集构建方面,他们利用了现有语料库,并通过人工标注来确定 SFT 的目标响应,以及辨认偏好和被拒绝的响应(这是 DPO 的关键)。研究人员还合成了人工注释数据。
此外,团队还利用 LLM 天生了专门针对“高质量文学数据”的指令-响应对,以创建用于练习的高质量问答对。
Qwen2后练习技能汇总
1.4 结论
Qwen 2 是一个相对能力较强的模子,与早期的 Qwen 系列类似。在 2023 年 12 月的 NeurIPS LLM 效率挑衅赛中,我记得大部分得胜方案都涉及 Qwen 模子。
关于 Qwen 2 的练习流程,值得注意的一点是,合成数据被用于预练习和后练习阶段。同时,将重点放在数据集过滤(而不是尽大概多地网络数据)也是 LLM 练习中的一个显著趋势。在我看来,数据确实是越多越好,但前提是要满意肯定的质量标准。
从零实现直接偏好优化(DPO)对齐 LLM
直接偏好优化(DPO)已经成为将 LLM 更好地与用户偏好对齐的首选方法之一。这篇文章中你会多次看到这个概念。如果你想学习它是如何工作的,Sebastian Raschka博士有一篇很好的文章,即:《从零实现直接偏好优化(DPO)用于 LLM 对齐》,你可以看看它。在介绍完本文列表中的模子扣会根据它用中文语言为各人重新编写一篇发布出来。
利用DPO技能实现人工智能大语言模子与人类对齐流程概览
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。 |