工业界主流大语言模子后训练技术综述:偏好对齐与能力提升 ...

打印 上一主题 下一主题

主题 1001|帖子 1001|积分 3003

马上注册,结交更多好友,享用更多功能,让你轻松玩转社区。

您需要 登录 才可以下载或查看,没有账号?立即注册

x
在人工智能领域,大语言模子的发展日新月异,其性能优化成为研究焦点。本文聚焦工业界主流开源大语言模子(LLM)的后训练技术,偏重剖析训练算法与数据处理惩罚环节,探寻模子性能提升的焦点要素。
一、什么是大语言模子后训练

大语言模子后训练是在预训练模子的底子上,进一步优化模子性能的过程。预训练模子就像是一个拥有大量语言知识的 “毛坯房”,它通过学习海量文本数据,掌握了基本的语言语法、语义和一些常见的知识。但在现实应用中,还必要根据特定的使命和需求举行 “精装修”,这就是后训练的意义地点。 后训练通常会利用特定的数据集和算法,对模子举行微调,使其能够更好地顺应诸如回答问题、生成文本、遵照指令等使命。例如,一个预训练模子可能在一样平常的语言理解上体现不错,但对于专业领域的问题回答可能不够准确,通过后训练,它可以在该领域的知识和推理能力上得到明显提升。
二、为什么后训练如此重要


  • 提升使命性能:不同的应用场景对模子有不同的要求。后训练可以让模子聚焦于特定使命,如在医疗领域,经过后训练的模子能够更准确地理解医学文献、回答患者的健康问题;在金融领域,能更好地分析市场数据、预测趋势等。通过针对性的训练,模子在这些特定使命上的准确率和服从会大幅进步。
  • 顺应人类偏好:模子必要与人类的代价观和使用习惯相契合。后训练可以利用人类反馈数据,使模子生成的回答更符合人类的期望,好比更加友爱、准确、有条理,避免产生有害或不恰当的内容。
三、后训练中的关键技术概念


  • 监督微调(SFT):这是后训练中常用的方法之一。它必要有标注的数据,好比对于一些问题,已经有了正确的答案或者高质量的回答示例。模子通过学习这些标注数据,调整自身的参数,以进步在雷同问题上的回答能力。例如,在训练一个数学问题回答模子时,提供大量的数学题目和详细的解答过程,模子就会学习如何解决这些问题,并在碰到新的数学问题时,更有可能给出正确的答案。
  • 偏好对齐技术:包括直接偏好优化(DPO)、奖励模子(RM)等。DPO 旨在最大化模子生成的好回答与坏回答之间的差异,通过对比不同回答的质量,让模子学习到如何生成更优质的内容。奖励模子则是通过给不同的回答打分,为模子提供一个评估标准,引导模子朝着得到更高奖励分数的方向发展。例如,在一个文本创作使掷中,奖励模子可以根据文本的流畅性、逻辑性、创新性等因素给模子的输出打分,模子会根据这个反馈不断改进本身的创作能力。
  • 数据合成与处理惩罚:数据是后训练的焦点要素之一。数据合成技术可以生成新的训练数据,增加数据的多样性和数目。例如,通过一些规则和模板,可以生成大量的对话示例、问题与回答对。同时,数据处理惩罚也非常关键,必要对数据举行清洗,去除噪声、重复和错误的数据,还会举行质量评估和分类,确保用于训练的数据是高质量且符合使命需求的。
四、主流模子后训练技术概览

数据合成技术已成为工业界 LLM 后训练的基石,其重要性不言而喻,企业若能率先构建高效的数据合成流水线,将在竞争中抢占先机。LLM - as - judge 和拒绝采样技术也得到广泛应用,如 Llama3、Qwen2 等模子借助这些技术精心构造偏好数据,通过多模子采样与评估,筛选出高质量样本,为模子训练奠基坚实底子。Instag 方法在多个模子报告中频繁现身,其蕴含的创新理念值得深入挖掘与借鉴。
在模子训练过程中,针对代码、多语言、数学推理等重点能力的单独优化成为关键计谋。各模子通过多样化手段,如 Llama3 的代码连续预训练与合成数据优化、多语言的混合数据集训练与数据网络计谋调整,精准提升各项能力,以满足复杂多变的应用需求。模子合并技术也备受青睐,Llama3、Gemma2 和 Baichuan2 等通过整合不同模子参数,有用均衡性能,规避单一模子的局限性。
强化学习方面,各模子依据自身架构与应用场景,选用不同算法。Llama3 采取迭代式 DPO,Qwen2 结合 offline DPO + online DPO,ChatGLM4 运用 DPO + PPO,Deepseek - V2 和 Baichuan2 采取 GRPO,Nemotron - 4 则使用迭代式 DPO + RPO,AFM 综合多种技术并创新提出 MDLOO,这些算法在优化模子计谋、提升性能方面各显神通。
五、典型模子后训练详解

(一)Llama3


  • 算法创新:Llama3 后训练历经多轮迭代,涵盖 SFT 和 DPO 阶段,充实利用人类解释与合成数据,协同奖励模子与语言模子实现优化。其奖励建模创新地移除边际项、处理惩罚相似响应并引入 “edited response”,监督微调借助奖励模子筛选数据,DPO 阶段则通过屏蔽格式化 tokens 和增加 NLL loss 正则化等手段稳定训练,同时采取模子平均计谋提升性能,迭代过程不断积聚上风。
  • 数据管理与能力提升:后训练数据涵盖人类解释、偏好及 SFT 数据,泉源广泛且分类精细。偏好数据经多模子采样与严酷解释生成,SFT 数据融合多种渠道并通过拒绝采样优化。在数据处理惩罚上,从清洗、修剪到分类、去重,全方位把控质量。在能力提升方面,针对代码、多语言、数学推理等能力,分别采取专业训练、数据合成、拒绝采样、执行反馈、交错推理等技术,实现全方位能力增强。
(二)Qwen2

Qwen2 后训练致力于提升多方面能力,同时确保模子与人类代价观契合,在数据构建上独辟蹊径。协作数据标注通过主动本体提取、指令选择、进化及人工解释,保障数据质量与多样性;主动数据合成运用拒绝采样、执行反馈等计谋,应对不同使命挑战,高效合成大规模数据。SFT 与 RLHF 阶段分别精心设置参数与算法,RLHF 的 offline 和 online 训练紧密共同,在线合并优化器有用缓解对齐税问题,提升模子性能。
(三)Nemotron - 4


  • 奖励模子革新:Nemotron - 4 构建的多属性回归奖励模子 HelpSteer2,基于特定架构精准预测细粒度奖励,在 RewardBench 上成绩斐然,为后续训练提供精准导向。
点击工业界主流大语言模子后训练技术综述:偏好对齐与能力提升检察全文。

免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
回复

使用道具 举报

0 个回复

倒序浏览

快速回复

您需要登录后才可以回帖 登录 or 立即注册

本版积分规则

万有斥力

论坛元老
这个人很懒什么都没写!
快速回复 返回顶部 返回列表