qidao123.com技术社区-IT企服评测·应用市场

标题: NVIDIA Dynamo 开源库加速并扩展 AI 推理模子 [打印本页]

作者: tsx81429    时间: 5 天前
标题: NVIDIA Dynamo 开源库加速并扩展 AI 推理模子
NVIDIA Dynamo 进步了推理性能,同时降低了扩展测试时计算 (Scaling Test-Time Compute) 的本钱;在 NVIDIA Blackwell 上的推理优化将 DeepSeek-R1 上的吞吐量进步了 30 倍
  

美国加利福尼亚州圣何塞 —— GTC —— 太平洋时间 2025 年 3 月 18 日 —— NVIDIA 本日发布了开源推理软件 NVIDIA Dynamo,旨在以高效率、低本钱加速并扩展 AI 工厂中的 AI 推理模子。
高效地编排和协调大量 GPU 上的 AI 推理请求,对确保 AI 工厂实现运行本钱最小化、token 收益最大化来说至关重要。
随着 AI 推理逐渐变为主流,AI 模子在处理每个提示时都会生成数以万计的 token 用于“思考”。进步推理性能的同时不断降低推理本钱,可加速服务提供商的增长并增长收入机会。
作为 NVIDIA Triton™ 推理服务器的后续产物,NVIDIA Dynamo 是一款全新的 AI 推理服务软件,旨在为摆设推理 AI 模子的 AI 工厂最大化其 token 收益。它协调并加速数千个 GPU 之间的推理通讯,并使用分离服务将大语言模子 (LLM) 的处理阶段和生成阶段在不同 GPU 上分离开来。这使得每个阶段的特定需求可以举行单独优化,并确保更大水平地利用 GPU 资源。
“全世界各行业都在练习 AI 模子以不同的方式举行思考和学习,从而使模子复杂度持续升级。”NVIDIA 创始人兼首席执行官黄仁勋表示,“为了实现自界说推理 AI 的未来,NVIDIA Dynamo 可以在这些模子上举行规模化摆设,从而为 AI 工厂实现降本增效”。
在 GPU 数量雷同的情况下,Dynamo 可将 NVIDIA Hopper™ 平台上运行 Llama 模子的 AI 工厂性能和收益翻倍。在由 GB200 NVL72 机架构成的大型集群上运行 DeepSeek-R1 模子时,NVIDIA Dynamo 的智能推理优化也可将每个 GPU 生成的 token 数量进步 30 倍以上。
为了提拔这些推理性能,NVIDIA Dynamo 加入了一些功能,使其可以或许进步吞吐量的同时降低本钱。它可以根据不断变革的请求数量和类型,动态添加、移除和重新分配 GPU,并精确定位大型集群中的特定 GPU,从而更大限度地减少相应计算和路由查询。别的,它还可以将推理数据卸载到本钱更低的显存和存储设备上,并在需要时快速检索这些数据,最大水平地降低推理本钱。
NVIDIA Dynamo 完全开源并支持 PyTorch、SGLang、NVIDIA TensorRT™-LLM 和 vLLM,使企业、初创公司和研究职员可以或许开发和优化在分离推理时摆设 AI 模子的方法。这将使用户加速采用 AI 推理,包括亚马逊云科技、Cohere、CoreWeave、戴尔科技、Fireworks、谷歌云、Lambda、Meta、微软 Azure、Nebius、NetApp、OCI、Perplexity、Together AI 和 VAST。
推理性能提拔

NVIDIA Dynamo 可将推理系统在处理过往请求时于显存中保存的知识(称为 KV 缓存),映射到埋伏的数千个 GPU 中。
然后,它会将新的推理请求路由到与所需信息匹配度最高的 GPU 上,从而避免昂贵的重新计算,并释放 GPU 来相应新的请求。
Perplexity AI 首席技术官 Denis Yarats 表示:“为了处理每月数以亿计的请求,我们依靠 NVIDIA GPU 及推理软件来提供业务和用户所需的性能、可靠性和拓展性。我们期待通过 NVIDIA Dynamo 及其增强的分布式服务本领,进一步进步推理服务效率,满意全新 AI 推理模子的计算需求。”
署理式 AI

AI 提供商 Cohere 计划使用 NVIDIA Dynamo 为其 Command 系列模子中的署理式 AI 功能提供支持。
Cohere 工程部门高级副总裁 Saurabh Baji 表示:“扩展先进的 AI 模子需要复杂的多 GPU 调理、无缝协调和低延长通讯库,以便在显存和存储中无缝传输推理上下文。我们期待 NVIDIA Dynamo 能资助我们为企业客户提供卓越的用户体验。”
分离服务

NVIDIA Dynamo 推理平台还支持分离服务,将 LLM 的不同计算阶段(包括创建对用户查询的理解,然后生成最佳相应)分配给不同的 GPU。这种方法非常适合推理模子,比方全新的 NVIDIA Llama Nemotron 模子系列,它们使用高级推理技术来改进上下文理解和相应生成。分离服务使得每个阶段可以举行单独的微调和资源调配,从而进步吞吐量并更快地相应用户。
Together AI (AI Acceleration Cloud) 正在寻求将其专有的 Together Inference Engine 与 NVIDIA Dynamo 集成,以便推理工作负载实现跨 GPU 节点的无缝扩展。这也让 Together AI 可以或许动态地解决模子管线各个阶段的流量瓶颈。
Together AI 首席技术官 Ce Zhang 表示:“经济高效地扩展推理模子需要新的先进推理技术,包括分离服务和上下文感知路由。借助我们专有的推理引擎,Together AI 可提供行业领先的性能。NVIDIA Dynamo 的开放性和模块化使我们可以或许将其组件无缝嵌入引擎,以满意更多请求,同时优化资源利用率,从而最大化我们在加速计算方面的投资。我们很高兴可以或许利用该平台的突破性功能,经济高效地为用户提供开源推理模子。”
NVIDIA Dynamo 构成结构

NVIDIA Dynamo 包罗四项关键创新,可降低推理服务本钱并改善用户体验:

NVIDIA Dynamo 将作为 NVIDIA NIM™ 微服务推出,并在未来版本中由 NVIDIA AI Enterprise 软件平台提供支持,具有生产级的安全性、支持和稳定性。
如需了解更多信息,请观看 NVIDIA GTC 大会主题演讲、阅读 Dynamo 博客,以及注册参与持续至 3 月 21 日的由 NVIDIA 和行业领导者主持的会议。

免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。




欢迎光临 qidao123.com技术社区-IT企服评测·应用市场 (https://dis.qidao123.com/) Powered by Discuz! X3.4