一、媒介
在大语言模子推理中使用Lora权重有几个明显的利益。起首,它可以或许在保持模子原有性能的底子上,进步特定任务的顺应能力,使得模子在特定范畴或任务上的表现更加精彩。其次,LoRa方法通过低秩适配技术,大幅减少了必要调优的参数数量,从而减轻练习资源的负担,并紧缩练习时间。同时,由于只需微调少量参数,模子在迁徙学习时也能更有用地保存原有的知识,进步了模子的泛化能力。这使得LoRa在资源有限的情况下,仍旧可以或许实现高效正确的结果,适用于各种实际应用场景。
在本篇中将先容如何使用vLLM框架集成Lora权重,以实现高效的推理过程。
<hr> 二、术语
2.1. vLLM
vLLM是一个开源的大模子推理加速框架,通过PagedAttention高效地管理attention中缓存的张量,实现了比HuggingFace Transformers高14-24倍的吞吐量。
2.2. Qwen2.5
Qwen2.5系列模子都在最新的大规模数据集上进行了预练习,该数据集包罗多达 18T tokens。相较于 Qwen2,Qwen2.5 获得了明显更多的知识(MMLU:85+),并在编程能力&#x
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。 |