开源模型应用落地-Qwen2.5-7B-Instruct与vllm实现推理加速的正确姿势-自动 ...

打印 上一主题 下一主题

主题 983|帖子 983|积分 2949

一、媒介

         在大语言模型(LLM)推理中,如何高效处理惩罚重复计算不停是优化的焦点挑战。vLLM 框架依附其自动前缀缓存(Automatic Prefix Caching, APC)技术,为解决长上下文和多轮对话场景下的效率瓶颈提供了创新方案。该技术通过历史查询的键值缓存,跳过重复的预添补计算,从而显著低落Token生成耽误。这种机制在长文档问答、多轮对话等典范场景中表现尤为突出,能够显著提拔吞吐量并低落耽误。
<hr> 二、术语

2.1. 自动前缀缓存

      Automatic Prefix Caching,简称 APC, 是一种缓存机制,它缓存已有查询的键值(KV)缓存。当新查询与现有查询有类似前缀时,新查询可直接复用该前缀对应的 KV 缓存,无需重新计算共享部分,以此提高查询处理惩罚效率。
1.自动前缀缓存焦点原理


  • PagedAttention 技术基础:PagedAttention 将每个请求的 KV 缓存划分为多个 KV 块,每个块存储固定数目令牌(tokens)的

免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
回复

使用道具 举报

0 个回复

倒序浏览

快速回复

您需要登录后才可以回帖 登录 or 立即注册

本版积分规则

知者何南

金牌会员
这个人很懒什么都没写!
快速回复 返回顶部 返回列表