一、媒介
在大语言模型(LLM)推理中,如何高效处理惩罚重复计算不停是优化的焦点挑战。vLLM 框架依附其自动前缀缓存(Automatic Prefix Caching, APC)技术,为解决长上下文和多轮对话场景下的效率瓶颈提供了创新方案。该技术通过历史查询的键值缓存,跳过重复的预添补计算,从而显著低落Token生成耽误。这种机制在长文档问答、多轮对话等典范场景中表现尤为突出,能够显著提拔吞吐量并低落耽误。
<hr> 二、术语
2.1. 自动前缀缓存
Automatic Prefix Caching,简称 APC, 是一种缓存机制,它缓存已有查询的键值(KV)缓存。当新查询与现有查询有类似前缀时,新查询可直接复用该前缀对应的 KV 缓存,无需重新计算共享部分,以此提高查询处理惩罚效率。
1.自动前缀缓存焦点原理
- PagedAttention 技术基础:PagedAttention 将每个请求的 KV 缓存划分为多个 KV 块,每个块存储固定数目令牌(tokens)的
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。 |