模型调优新突破:无需标注数据,Llama 3.3 70B性能直逼GPT-4o! ...

打印 上一主题 下一主题

主题 1744|帖子 1744|积分 5232

现阶段,微调大型语言模型(LLMs)的难点在于,人们通常没有高质量的标注数据。

最近,AI 公司 Databricks 推出了一种新的调优方法 TAO,只需要输入数据,无需标注数据即可完成。更令人惊喜的是,TAO 在性能上乃至超过了基于标注数据的监督微调。




众所周知,LLM 很难适应新的企业级任务。提示(prompting)的方式容易堕落,且质量提升有限,而微调(fine-tuning)则需要大量的标注数据,而这些数据在大多数企业任务中是不可用的。

Databricks 提出的模型调优方法,只需要未标注数据,企业就可以使用现有的数据来提升 AI 的质量并降低本钱。

TAO(全称 Test-time Adaptive Optimization)使用测试时盘算(由 o1 和 R1 推广)和强化学习(RL)算法,仅基于已往的输入示例来教导模型更好地完成任务。

至关紧张的是,尽管 TAO 使用了测试时盘算,但它将其作为练习模型过程的一部分;然后,该模型以较低的推理本钱(即在推理时不需要额外的盘算)直接执行任务。

更令人惊讶的是,纵然没有标注数据,TAO 也能实现比传统调优模型更好的质量,并且它可以将像 Llama 这样的开源模型提升到与专有模型(如 GPT-4o 和 o3-mini)相当的质量程度。

借助 TAO,Databricks 已经取得了三项突破性结果:



  • 在文档问答和 SQL 天生等专业企业任务中,TAO 的表现优于需要数千标注样本的传统微调方法。它让 Llama 8B/70B 等高效开源模型达到了 GPT-4o/o3-mini1 等商业模型的同等程度,且无需任何标注数据;
  • 在零标注数据条件下,TAO 将 Llama 3.3 70B 模型在企业综合基准测试中的表现提升了 2.4%;
  • 增长 TAO 练习阶段的算力投入,可以在雷同数据条件下得到更优模型质量,且不会增长推理阶段的本钱消耗。

图 1 展示了 TAO 在三个企业级任务中对 Llama 模型的提升效果:尽管仅使用原始输入数据,TAO 不光超越了需要数千标注样本的传统微调 (FT) 方法,更让 Llama 系列模型达到了商业模型的性能水准。






图 1:Llama 3.1 8B 与 Llama 3.3 70B 在三大企业级基准测试中应用 TAO 的效果对比。TAO 带来显著的性能提升,不光超越传统微调方法,更直指高价商业大语言模型的性能程度。

TAO 工作原理
基于测试时盘算与强化学习的模型调优

TAO 的核心创新在于摒弃了人工标注数据,转而使用测试时盘算引导模型探索任务的大概响应,再通过强化学习根据响应评估结果更新模型参数。

该流程通过可扩展的测试时盘算(而非昂贵的人工标注)实现质量提升,并能机动融入领域知识(如定制规则)。令人惊讶的是,在高质量开源模型上应用该方法时,其效果每每优于依赖人工标注的传统方案。



TAO pipeline

TAO 包含四个核心阶段:



  • 响应天生:该阶段首先收集任务相关的输入提示或查询样本。在 Databricks 平台上,这些提示可通过 AI Gateway 自动收罗;
  • 响应评分:体系化评估天生响应的阶段。评分方法包含多种计谋,例如基于奖励模型、偏好评分,或使用 LLM 评判器及定制规则举行任务特异性验证,确保每个响应都做到最优;
  • 强化学习(RL)练习:终极阶段采用基于强化学习的方法更新大语言模型,引导模型天生与高分响应高度契合的输出。通过这一自适应学习过程,模型持续优化推测能力以提升质量;
  • 持续改进:TAO 仅需 LLM 输入样本作为数据源。用户与 LLM 的日常交互自然形成该数据 —— 一旦模型摆设使用,即可自动天生下一轮 TAO 练习数据。在 Databricks 平台上,借助 TAO 机制,模型会随着使用频次增长而持续进化。

虽然 TAO 在练习阶段使用了测试时盘算,但终极产出的模型在执行任务时仍保持低推理本钱。这意味着颠末 TAO 调优的模型在推理阶段 —— 与原版模型相比 —— 具有完全雷同的盘算开销和响应速度,显著优于 o1、o3 和 R1 等依赖测试时盘算的模型。实行表明:采用 TAO 练习的高效开源模型,在质量上足以比肩顶尖的商业闭源模型。

TAO 为 AI 模型调优提供了一种突破性方法:



  • 差别于耗时且易堕落的提示工程;
  • 也区别于需要昂贵人工标注数据的传统微调;
  • TAO 仅需工程师提供任务相关的典型输入样本,即可实现杰出性能。



LLM 差别调优方法比较。

实行及结果

接下来,文章深入探讨了怎样使用 TAO 针对专门的企业任务调优 LLM。本文选择了三个具有代表性的基准。



表 2:该研究使用的基准测试概览。

如表 3 所示,在所有三个基准测试和两种 Llama 模型中,TAO 显著提升了基础 Llama 的性能,乃至超过了微调的效果。



表 3:在三个企业级基准测试中使用 TAO 的 Llama 3.1 8B 和 Llama 3.3 70B 实行结果。

与经典的测试时盘算类似,当 TAO 能够使用更多的盘算资源时,它会产生更高质量的结果(见图 3 中的示例)。然而,与测试时盘算差别的是,这种额外的盘算资源仅在调优阶段使用;终极的语言模型的推理本钱与原始语言模型雷同。例如,o3-mini 天生的输出 token 数目比其他模型多 5-10 倍,因此其推理本钱也相应更高,而 TAO 的推理本钱与原始 Llama 模型雷同。




使用 TAO 进步模型多任务性能

到目前为止,该研究已经使用 TAO 来提升语言模型在单一任务(例如 SQL 天生)上的表现。接下来,该研究展示了 TAO 怎样广泛提升模型在一系列企业任务中的性能。

结果如下,TAO 显著提升了两个模型的性能,将 Llama 3.3 70B 和 Llama 3.1 70B 分别提升了 2.4 和 4.0 个百分点。TAO 使 Llama 3.3 70B 在企业级任务上的表现显著靠近 GPT-4o,所有这些改进都没有产生人工标注本钱。




 
 怎样学习AI大模型?

我在一线互联网企业工作十余年里,引导过不少同行子弟。资助许多人得到了学习和成长。
我意识到有许多履历和知识值得分享给大家,也可以通过我们的能力和履历解答大家在人工智能学习中的许多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,许多互联网行业朋友无法得到精确的资料得到学习提升,故此将并将紧张的AI大模型资料包罗AI大模型入门学习头脑导图、佳构AI大模型学习册本手册、视频教程、实战学习等录播视频免费分享出来。

第一阶段: 从大模型体系设计入手,讲解大模型的主要方法;
第二阶段: 在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用;
第三阶段: 大模型平台应用开辟借助阿里云PAI平台构建电商领域虚拟试衣体系;
第四阶段: 大模型知识库应用开辟以LangChain框架为例,构建物流行业咨询智能问答体系;
第五阶段: 大模型微调开辟借助以大康健、新零售、新媒体领域构建得当当前领域大模型;
第六阶段: 以SD多模态大模型为主,搭建了文生图小程序案例;
第七阶段: 以大模型平台应用与开辟为主,通过星火大模型,文心大模型等成熟大模型构建大模型行业应用。


本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

x
回复

使用道具 举报

0 个回复

倒序浏览

快速回复

您需要登录后才可以回帖 登录 or 立即注册

本版积分规则

民工心事

论坛元老
这个人很懒什么都没写!
快速回复 返回顶部 返回列表