开源模子应用落地-qwen1.5-7b-chat与vllm实现推理加速的正确姿势（八） ...

水军大提督 · 2024-10-25 17:03:30

一、前言

   就在前几天开源社区又发布了qwen1.5版本，它是qwen2模子的测试版本。在本篇学习中，将集成vllm实现模子推理加速，现在，我们赶紧跟上技术发展的脚步，去体验一下新版本模子的推理质量。
<hr> 二、术语

2.1. vLLM

   vLLM是一个开源的大模子推理加速框架，通过PagedAttention高效地管理attention中缓存的张量，实现了比HuggingFace Transformers高14-24倍的吞吐量。
2.2. qwen1.5

Qwen1.5是Qwen2的测试版，这是一个基于转换器的纯解码器语言模子，在大量数据上进行了预训练。
   In comparison with the previous released Qwen, the improvements include:

6 model sizes, including 0.5B, 1.8B, 4B, 7B, 14B, and 72B;
Significant performance improvement in human preference for chat models;
Multilingual support of both base and chat models;

免责声明：如果侵犯了您的权益，请联系站长，我们会及时删除侵权内容，谢谢合作！更多信息从访问主页：qidao123.com:ToB企服之家，中国第一个企服评测及商务社交产业平台。

		自动登录	找回密码
密码			立即注册

开源模子应用落地-qwen1.5-7b-chat与vllm实现推理加速的正确姿势（八） ...

0 个回复

快速回复

楼主热帖

标签云