qidao123.com技术社区-IT企服评测·应用市场

标题: NVIDIA Dynamo 开源库加速并扩展 AI 推理模子 [打印本页]

作者: tsx81429 时间: 5 天前
标题: NVIDIA Dynamo 开源库加速并扩展 AI 推理模子
NVIDIA Dynamo 进步了推理性能，同时降低了扩展测试时计算 (Scaling Test-Time Compute) 的本钱；在 NVIDIA Blackwell 上的推理优化将 DeepSeek-R1 上的吞吐量进步了 30 倍

美国加利福尼亚州圣何塞 —— GTC —— 太平洋时间 2025 年 3 月 18 日 —— NVIDIA 本日发布了开源推理软件 NVIDIA Dynamo，旨在以高效率、低本钱加速并扩展 AI 工厂中的 AI 推理模子。
高效地编排和协调大量 GPU 上的 AI 推理请求，对确保 AI 工厂实现运行本钱最小化、token 收益最大化来说至关重要。
随着 AI 推理逐渐变为主流，AI 模子在处理每个提示时都会生成数以万计的 token 用于“思考”。进步推理性能的同时不断降低推理本钱，可加速服务提供商的增长并增长收入机会。
作为 NVIDIA Triton™ 推理服务器的后续产物，NVIDIA Dynamo 是一款全新的 AI 推理服务软件，旨在为摆设推理 AI 模子的 AI 工厂最大化其 token 收益。它协调并加速数千个 GPU 之间的推理通讯，并使用分离服务将大语言模子 (LLM) 的处理阶段和生成阶段在不同 GPU 上分离开来。这使得每个阶段的特定需求可以举行单独优化，并确保更大水平地利用 GPU 资源。
“全世界各行业都在练习 AI 模子以不同的方式举行思考和学习，从而使模子复杂度持续升级。”NVIDIA 创始人兼首席执行官黄仁勋表示，“为了实现自界说推理 AI 的未来，NVIDIA Dynamo 可以在这些模子上举行规模化摆设，从而为 AI 工厂实现降本增效”。
在 GPU 数量雷同的情况下，Dynamo 可将 NVIDIA Hopper™ 平台上运行 Llama 模子的 AI 工厂性能和收益翻倍。在由 GB200 NVL72 机架构成的大型集群上运行 DeepSeek-R1 模子时，NVIDIA Dynamo 的智能推理优化也可将每个 GPU 生成的 token 数量进步 30 倍以上。
为了提拔这些推理性能，NVIDIA Dynamo 加入了一些功能，使其可以或许进步吞吐量的同时降低本钱。它可以根据不断变革的请求数量和类型，动态添加、移除和重新分配 GPU，并精确定位大型集群中的特定 GPU，从而更大限度地减少相应计算和路由查询。别的，它还可以将推理数据卸载到本钱更低的显存和存储设备上，并在需要时快速检索这些数据，最大水平地降低推理本钱。
NVIDIA Dynamo 完全开源并支持 PyTorch、SGLang、NVIDIA TensorRT™-LLM 和 vLLM，使企业、初创公司和研究职员可以或许开发和优化在分离推理时摆设 AI 模子的方法。这将使用户加速采用 AI 推理，包括亚马逊云科技、Cohere、CoreWeave、戴尔科技、Fireworks、谷歌云、Lambda、Meta、微软 Azure、Nebius、NetApp、OCI、Perplexity、Together AI 和 VAST。
推理性能提拔

NVIDIA Dynamo 可将推理系统在处理过往请求时于显存中保存的知识（称为 KV 缓存），映射到埋伏的数千个 GPU 中。
然后，它会将新的推理请求路由到与所需信息匹配度最高的 GPU 上，从而避免昂贵的重新计算，并释放 GPU 来相应新的请求。
Perplexity AI 首席技术官 Denis Yarats 表示：“为了处理每月数以亿计的请求，我们依靠 NVIDIA GPU 及推理软件来提供业务和用户所需的性能、可靠性和拓展性。我们期待通过 NVIDIA Dynamo 及其增强的分布式服务本领，进一步进步推理服务效率，满意全新 AI 推理模子的计算需求。”
署理式 AI

AI 提供商 Cohere 计划使用 NVIDIA Dynamo 为其 Command 系列模子中的署理式 AI 功能提供支持。
Cohere 工程部门高级副总裁 Saurabh Baji 表示：“扩展先进的 AI 模子需要复杂的多 GPU 调理、无缝协调和低延长通讯库，以便在显存和存储中无缝传输推理上下文。我们期待 NVIDIA Dynamo 能资助我们为企业客户提供卓越的用户体验。”
分离服务

NVIDIA Dynamo 推理平台还支持分离服务，将 LLM 的不同计算阶段（包括创建对用户查询的理解，然后生成最佳相应）分配给不同的 GPU。这种方法非常适合推理模子，比方全新的 NVIDIA Llama Nemotron 模子系列，它们使用高级推理技术来改进上下文理解和相应生成。分离服务使得每个阶段可以举行单独的微调和资源调配，从而进步吞吐量并更快地相应用户。
Together AI (AI Acceleration Cloud) 正在寻求将其专有的 Together Inference Engine 与 NVIDIA Dynamo 集成，以便推理工作负载实现跨 GPU 节点的无缝扩展。这也让 Together AI 可以或许动态地解决模子管线各个阶段的流量瓶颈。
Together AI 首席技术官 Ce Zhang 表示：“经济高效地扩展推理模子需要新的先进推理技术，包括分离服务和上下文感知路由。借助我们专有的推理引擎，Together AI 可提供行业领先的性能。NVIDIA Dynamo 的开放性和模块化使我们可以或许将其组件无缝嵌入引擎，以满意更多请求，同时优化资源利用率，从而最大化我们在加速计算方面的投资。我们很高兴可以或许利用该平台的突破性功能，经济高效地为用户提供开源推理模子。”
NVIDIA Dynamo 构成结构

NVIDIA Dynamo 包罗四项关键创新，可降低推理服务本钱并改善用户体验：

GPU 规划器 (GPU Planner)：一种规划引擎，可动态地添加和移除 GPU，以适应不断变革的用户需求，从而避免 GPU 配置过度或不足。
智能路由器 (Smart Router)：一个具备大语言模子 (LLM) 感知本领的路由器，它可以在大型 GPU 集群中引导请求的流向，从而最大水平减少因重复或重叠请求而导致的代价高昂的 GPU 重复计算，释放出 GPU 资源以相应新的请求。
低延长通讯库 (Low-Latency Communication Library)：推理优化库，支持先进的 GPU 到 GPU 通讯，并简化异构设备之间的复杂数据交换，从而加速数据传输。
显存管理器 (Memory Manager)：一种可在不影响用户体验的情况下，以智能的方式在低本钱显存和存储设备上卸载及重新加载推理数据的引擎。

NVIDIA Dynamo 将作为 NVIDIA NIM™ 微服务推出，并在未来版本中由 NVIDIA AI Enterprise 软件平台提供支持，具有生产级的安全性、支持和稳定性。
如需了解更多信息，请观看 NVIDIA GTC 大会主题演讲、阅读 Dynamo 博客，以及注册参与持续至 3 月 21 日的由 NVIDIA 和行业领导者主持的会议。

免责声明：如果侵犯了您的权益，请联系站长，我们会及时删除侵权内容，谢谢合作！更多信息从访问主页：qidao123.com:ToB企服之家，中国第一个企服评测及商务社交产业平台。

欢迎光临 qidao123.com技术社区-IT企服评测·应用市场 (https://dis.qidao123.com/)