开源模子应用落地-Qwen2.5-7B-Instruct与vllm实现离线推理-使用Lora权重( ...

打印 上一主题 下一主题

主题 829|帖子 829|积分 2487

一、媒介

     在大语言模子推理中使用Lora权重有几个明显的利益。起首,它可以或许在保持模子原有性能的底子上,进步特定任务的顺应能力,使得模子在特定范畴或任务上的表现更加精彩。其次,LoRa方法通过低秩适配技术,大幅减少了必要调优的参数数量,从而减轻练习资源的负担,并紧缩练习时间。同时,由于只需微调少量参数,模子在迁徙学习时也能更有用地保存原有的知识,进步了模子的泛化能力。这使得LoRa在资源有限的情况下,仍旧可以或许实现高效正确的结果,适用于各种实际应用场景。
     在本篇中将先容如何使用vLLM框架集成Lora权重,以实现高效的推理过程。
<hr> 二、术语

2.1. vLLM

     vLLM是一个开源的大模子推理加速框架,通过PagedAttention高效地管理attention中缓存的张量,实现了比HuggingFace Transformers高14-24倍的吞吐量。
2.2. Qwen2.5

     Qwen2.5系列模子都在最新的大规模数据集上进行了预练习,该数据集包罗多达 18T tokens。相较于 Qwen2,Qwen2.5 获得了明显更多的知识(MMLU:85+),并在编程能力&#x

免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
回复

使用道具 举报

0 个回复

倒序浏览

快速回复

您需要登录后才可以回帖 登录 or 立即注册

本版积分规则

梦见你的名字

金牌会员
这个人很懒什么都没写!
快速回复 返回顶部 返回列表