11月28日,月之暗面 Kimi 联合清华大学等机构,开源了大模子推理架构 Mooncake。
在这篇名为《Mooncake: A KVCache-centric Disaggregated Architecture for LLM Serving》的论文中,作者详细介绍了 Mooncake 这种系统架构。
论文链接:https://arxiv.org/pdf/2407.00079
项目地点:https://github.com/kvcache-ai/Mooncake
Mooncake 是由 Moonshot AI 提出的长文高效推理架构,它采取了 KVCache 为中央的分离架构,将预添补和解码集群分开,并利用 GPU 集群中未充实利用的 CPU、DRAM 和 SSD 资源实现分离的 KVCache。
此次更新,开源了 Mooncake 的核心组件 Transfer Engine,还提供了 Transfer Engine 的两个演示:P2P Store 和 vLLM 集成。
图:Mooncake 推理系统架构图 Mooncake 的核心是以 KVCache 为中央的调度步伐,在最大化整体有用吞吐量和满足与耽误相干的服务级目标(SLO)之间取得平衡。 Mooncake 不但提拔了 Kimi 的用户体验和低落了资本,还为处理长文本和高并发需求提供了有用的办理方案,承载 Kimi 线上 80% 流量。