ToB企服应用市场:ToB评测及商务社交产业平台

标题: 开源模子应用落地-qwen1.5-7b-chat与vllm实现推理加速的正确姿势(八) [打印本页]

作者: 水军大提督    时间: 2024-10-25 17:03
标题: 开源模子应用落地-qwen1.5-7b-chat与vllm实现推理加速的正确姿势(八)
一、前言

     就在前几天开源社区又发布了qwen1.5版本,它是qwen2模子的测试版本。在本篇学习中,将集成vllm实现模子推理加速,现在,我们赶紧跟上技术发展的脚步,去体验一下新版本模子的推理质量。
<hr> 二、术语

2.1. vLLM

     vLLM是一个开源的大模子推理加速框架,通过PagedAttention高效地管理attention中缓存的张量,实现了比HuggingFace Transformers高14-24倍的吞吐量。
2.2. qwen1.5

    Qwen1.5是Qwen2的测试版,这是一个基于转换器的纯解码器语言模子,在大量数据上进行了预训练。
     In comparison with the previous released Qwen, the improvements include:


免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。




欢迎光临 ToB企服应用市场:ToB评测及商务社交产业平台 (https://dis.qidao123.com/) Powered by Discuz! X3.4