论坛
潜水/灌水快乐,沉淀知识,认识更多同行。
ToB圈子
加入IT圈,遇到更多同好之人。
朋友圈
看朋友圈动态,了解ToB世界。
ToB门户
了解全球最新的ToB事件
博客
Blog
排行榜
Ranklist
文库
业界最专业的IT文库,上传资料也可以赚钱
下载
分享
Share
导读
Guide
相册
Album
记录
Doing
应用中心
搜索
本版
文章
帖子
ToB圈子
用户
免费入驻
产品入驻
解决方案入驻
公司入驻
案例入驻
登录
·
注册
账号登录
立即注册
找回密码
用户名
Email
自动登录
找回密码
密码
登录
立即注册
首页
找靠谱产品
找解决方案
找靠谱公司
找案例
找对的人
专家智库
悬赏任务
圈子
SAAS
qidao123.com技术社区-IT企服评测·应用市场
»
论坛
›
软件与程序人生
›
云原生
›
Mooncake:面向大规模语言模子服务的分布式缓存架构 ...
Mooncake:面向大规模语言模子服务的分布式缓存架构
张裕
论坛元老
|
2025-5-2 17:51:44
|
显示全部楼层
|
阅读模式
楼主
主题
1540
|
帖子
1540
|
积分
4620
Mooncake:面向大规模语言模子服务的分布式缓存架构
Mooncake
项目地点: https://gitcode.com/gh_mirrors/mo/Mooncake
项目先容
Mooncake 是一个基于键-值(KV)缓存的分布式架构,专为大规模语言模子(LLM)服务设计。它由Moonshot AI提供,为Kimi服务提供支持,Kimi是一种领先的LLM服务。Mooncake 通过其独特的架构,将预填充和解码集群分离,充实使用GPU集群中未被充实使用的CPU、DRAM和SSD资源,实现了一个高效的分布式缓存体系。
项目技能分析
Mooncake 的焦点是一个KVCache-centric调度器,它负责在保证满足延长相干的服务水平目的(SLOs)的同时,最大化整体有效吞吐量。与传统的假设全部请求都将被处理惩罚的研究不同,Mooncake 面临着高度过载场景的挑战。为了应对这些挑战,Mooncake 开辟了一种基于预测的早期拒绝策略。实验表明,Mooncake 在长上下文场景中表现精彩。与基线方法相比,Mooncake 在某些模仿场景下可以实现高达525%的吞吐量增长,同时遵守SLOs。在现实工作负载下,Mooncake 的创新架构使得Kimi能够处理惩罚更多的请求。
Mooncake 的架构包括以下几个关键组件:
Transfer Engine
:支持通过TCP、RDMA、基于NVIDIA GPUDirect的RDMA以及NVMe over Fabric(NVMe-of)协议进行快速、可靠且机动的数据传输。
P2P Store
:基于Transfer Engine,支持在集群节点之间共享暂时对象(例如检查点文件)。
Mooncake Store
:基于Transfer Engine,为LLM推理提供分布式池化KVCache存储引擎。
项目及技能应用场景
Mooncake 的设计目的是优化大规模语言模子服务,特别是在处理惩罚长上下文和高负载场景时。以下是几个具体的应用场景:
大规模语言模子推理
:Mooncake Store 通过提供分布式KVCache,使得LLM推理过程更加高效,特别是在处理惩罚大型模子和复杂数据时。
数据共享与同步
:P2P Store 支持在集群节点之间快速高效地共享数据,例如在模子训练过程中进行检查点同步。
高性能数据传输
:Transfer Engine 提供了一种高效的数据传输方式,适合必要大量数据传输的场景,如大规模模子预加载。
项目特点
Mooncake 的特点体如今以下几个方面:
高度可扩展性
:通过KVCache-centric架构,Mooncake 可以在高度过载的场景中提供高效的资源使用和吞吐量。
机动的数据传输
:Transfer Engine 支持多种协议,可以根据不同的网络环境和硬件条件选择最合适的数据传输方式。
优化的性能
:通过使用RDMA等高级传输技能,Mooncake 在数据传输性能上具有显著优势,可以实现更高的带宽使用率和更低的延长。
易于集成
:Mooncake 的设计考虑了与其他体系的兼容性,可以轻松集成到现有的LLM服务中。
以下是Mooncake的性能示例:
Mooncake Transfer Engine 在4×200 Gbps和8×400 Gbps RoCE网络中,可以实现高达87 GB/s和190 GB/s的带宽,分别是TCP协议的2.4倍和4.6倍。
此外,Mooncake Store 和P2P Store 在数据传输和共享方面也表现精彩,可以充实使用硬件带宽。
总结来说,Mooncake 通过其独特的架构和高度优化的数据传输机制,为大规模语言模子服务提供了一个高效、机动且易于集成的解决方案。对于必要处理惩罚大量数据和高性能推理的服务提供商来说,Mooncake 是一个值得考虑的开源项目。
Mooncake
项目地点: https://gitcode.com/gh_mirrors/mo/Mooncake
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
本帖子中包含更多资源
您需要
登录
才可以下载或查看,没有账号?
立即注册
x
回复
使用道具
举报
0 个回复
倒序浏览
返回列表
快速回复
高级模式
B
Color
Image
Link
Quote
Code
Smilies
您需要登录后才可以回帖
登录
or
立即注册
本版积分规则
发表回复
回帖并转播
回帖后跳转到最后一页
发新帖
回复
张裕
论坛元老
这个人很懒什么都没写!
楼主热帖
AI绘画Stable Diffusion Lora模子的利 ...
什么时候用C而不消C++?
049-WEB攻防-文件上传&存储安全&OSS对 ...
Linux安装最新版Docker完整教程(建议 ...
这所985超燃,中科院院士10天发四篇Nat ...
Docker 容器 mysql 配置主从
在 Kubernetes 中部署 Alertmanager ...
京准电钟:GPS北斗卫星时钟同步系统行 ...
免费分享:城市修建轮廓矢量数据(附下 ...
前端 | 燃尽图绘制
标签云
渠道
国产数据库
集成商
AI
运维
CIO
存储
服务器
浏览过的版块
公有云
WMS
人工智能
快速回复
返回顶部
返回列表