qidao123.com技术社区-IT企服评测·应用市场

标题: 推理加快新范式:火山引擎高性能分布式 KVCache (EIC)核心技术解读 [打印本页]

作者: 郭卫东    时间: 7 天前
标题: 推理加快新范式:火山引擎高性能分布式 KVCache (EIC)核心技术解读


资料泉源:火山引擎-开发者社区


分布式 KVCache 的鼓起
背景
在大模型领域,随着模型参数规模的扩大和上下文长度增长,算力消耗明显增长。在 LLM 推理过程中,怎样减少算力消耗并提升推理吞吐已经成为关键性优化方向。以多轮对话场景为例,随着对话轮数增长,汗青 token 重算占比连续增长。实行数据表明(如图1),当每轮输入为 8k tokens 时,运行 6 轮后,汗青 token 重复计算占比凌驾 80%,直接导致了 GPU 算力的冗余消耗。在此背景下,构建高效的汗青 token 计算效果缓存机制,理论上可以实现对重复计算过程的智能规避,从而明显提升计算资源的利用效率。



图1 对话轮数及重算率的变化
在应对上述技术挑衅中,KVCache 技术应运而生。
作为当代推理框架的核心组件,KVCache 能明显优化体系性能。 以 vLLM 为例,其通过 Prefix Cache 和 PageAttention 技术,构建了基于本地 HBM 的 Local KVCache 方案。该方案中,缓存重用率(Cache 可被重复使用的比例)作为核心指标,通常以为与缓存容量呈正相关关系,即空间越大重用率越高,然而 Local KVCache 受限于本地存储空间,容易碰到瓶颈。
从实行数据看出(如图2),在 H20 硬件平台运行 LLaMA-70B 模型时,每处置惩罚 1K token 必要 1.6GB 空间,导致 Prefill 在 20 分钟内即突破内存阈值。这一内存墙问题会引发 KVCache 频仍驱逐旧数据,导致重用率下降,进而严重影响 KVCache 记忆长度,终极导致大量 token 重计算。为验证内存墙问题的影响,我们在 LLaMA-70B 模型的长文本场景测试中发现(如图 3),随着文档规模的增长,体系会快速触及单机内存上限,导致 token 吞吐量骤降 70%,迫使体系陷入算力重复消耗的恶性循环。



图2 KVCache 内存占用



图3 Token 吞吐和 KVCache 重用率
Local KVCache 另一个关键局限于在于无法多机共享,重要影响以下范例场景:




图4 KVCache 不能共享的场景
需求
基于上述分析,我们构建了一个弹性高性能的分布式 KVCache 服务,来优化 Local KVCache 方案的内存墙和不能共享的问题。区别于传统分布式服务,分布式 KVCache 要求更高,对存储的核心挑衅与需求如下:

火山引擎推理 KVCache 解决方案
弹性极速缓存 EIC
弹性极速缓存 EIC(Elastic Instant Cache)是火山引擎存储团队面向大语言模型推理场景推出的高性能分布式 KVCache 缓存服务。随着互联网技术的演进与流量规模的激增,缓存技术渐渐成为体系架构的核心组件,火山引擎存储团队基于自身业务内部加快需求自主研发了 EIC,历经 4 年技术沉淀,该体系已支撑了公司内部存储、推理、广告推荐等大规模业务场景。
EIC KVCache 支持将内存和 SSD 构成一个分布式服务,构建多层缓存体系,实现显存容量的灵活扩展与计算资源的高效解耦。还支持和 GPU 混淆摆设,将 GPU 剩余显存、内存和磁盘统一池化管理,在提升计算效率的同时明显扩展上下文长度,成为加快推理框架的核心链路。基于通用模型和推理引擎,无缝兼容主流大语言模型架构,达成单客户端百 GB 级 KVCache 吞吐与亚毫秒级响应,满意高并发、低耽误的天生式 AI 场景需求。
EIC 核心特性
缓存池化:多级缓存、数据活动
EIC 通过整合 GPU 集群闲置内存和磁盘,构建分布式缓存池,突破单机内存墙限制。分布式内存池化的核心目的是基于统一的多级存储资源池化管理(GPU 显存、CPU 内存、SSD及其他缓存体系),实现显存容量的灵活扩展与计算资源的高效解耦。



图5 多级透明缓存
推理缓存 KVCache Offload 至分布式缓存后,具备以下优势:

低时延:GPU Direct RDMA

GDR 可以实现全链路内存零拷贝,支持极低的访问时延。在不同 IO 巨细的测试中,GDR 的表现精良(图 7),时延可以达到 TCP 或 RDMA 的十分之一。



图6 GDR 工作表示图



图7 GDR 性能对比
EIC 与 Local KVCache 在实际推理场景中的效果对比如下:

图8 EIC KVCache 推理框架以存代算性能对比
高吞吐:多网卡、拓扑亲和、模型高速加载
模型分发场景中,推理冷启动对模型加载的速度要求较高,模型加载的速度决定了推理服务的弹性本领。随着模型的增长,传统存储服务的加载速度渐渐迟钝。EIC 通太过布式缓存,实现模型文件到推理框架的高速加载,明显提升推理服务弹性。我们对比了模型在 H20 机型上从 NVMe SSD (传统存储服务的性能基线) 和 从 EIC 的加载速度,测试数据显示(图9):




图9 EIC KVCache 推理框架模型加载性能对比
为应对大模型高并发场景的 KVCache 吞吐需求,EIC 通过多网卡并行传输和负载均衡技术,大幅提升了体系性能上限;同时为相识决不同 GPU 间访问网卡的时延差异,EIC 支持感知 GPU 和网卡拓扑结构,基于亲和性来选择最优网卡传输数据,达到时延和吞吐的极致优化(如图 10)。GPU 机型的 Root Complex 是 Socket 级别,可转化为 NUMA 级别亲和,比如 Mem0 利用 R0 网卡和 R1 网卡发送耽误更低,GPU0 利用 R0 网卡发送耽误更低,我们测试多种配置场景,依赖多网卡、拓扑亲和等特性,单机可以轻松突破 100GB/s 带宽(图 11)。



图10 GPU 网络亲和表示图



图11 EIC 读带宽性能测试
高易用:Namespace 切分
EIC 支持多 Namespace 本领,可以实现数据分类,围绕 Namespace 支持以下特性:




图12 Namespace 特性及应用场景
在 LLM 场景中,Namespace 本领有以下应用,满意实际场景需求:

生态兼容:AI 云原生和开源生态集成
EIC 支持用户利用其 GPU 服务器的空闲内存和 SSD 资源,构建半托管大概全托管的高性能缓存池,目前, EIC 管控服务基于火山引擎托管,既可以大概依托火山引擎的 VKE 构建服务,也可基于开源的 K8S 构建服务。我们积极融入开源生态,已完成对 vLLM、SGLang 以及 Dynamo 等推理框架的适配,并将其集成至火山引擎 AI 相关重要业务中。
开源生态集成
我们基于 vLLM、SGLang 与 Dynamo 的开源实现,开发了 KV Transfer 缓存共享(Cache Reuse and Sharing)技术。该技术已成功在 PD 分离和模型并行架构下实现高效共享。与传统方案相比,在长文本场景中,推理吞吐提升 3 倍,初次 token 天生时间(TTFT)降低 67%。同时,我们优化了模型加载链路,支持模型通过多网卡从 EIC 举行高速直传,以 DeepSeek-R1(642GB)模型为例,其加载时间可缩减至 13 秒,明显提升模型摆设效率。目前,我们已完成 EIC 集成的预制镜像制作,并计划将其贡献至开源社区,与社区开发者共同打造更高效、灵活的推明确决方案。
云原生开箱即用
在 EIC 集成方面,我们提供的预制镜像与白屏化集群管理平台深度协同,用户仅需在集群管理页面一键操纵,即可将 VKE 和自建 K8S 推理集聚集成 EIC 服务,并自动天生适配 SGLang、vLLM 和 Dynamo的 Helm Chart 包。借助该工具,推理框架的摆设流程得到大幅简化,真正实现一键式快速启动。我们编制了详尽的最佳实践文档,围绕 VKE(容器服务)/Kubernetes Yaml 及 Helm 两种主流摆设方式,完整展示从环境配置、参数优化到服务上线的全流程操纵指南,帮助用户快速把握高效摆设方法,降低技术门槛,加快 EIC 与推理框架的深度融合应用。
预测
将来 EIC 将继承从以下维度连续演进,进一步提升产物本领和用户体验,敬请期待:




图13 推理框架与 EIC 生态演进

免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。




欢迎光临 qidao123.com技术社区-IT企服评测·应用市场 (https://dis.qidao123.com/) Powered by Discuz! X3.4