一文就够——IB网络初识与场景深入理解

嚴華  金牌会员 | 2024-12-18 07:35:35 | 显示全部楼层 | 阅读模式
打印 上一主题 下一主题

主题 911|帖子 911|积分 2733

目录

一、根本概念
二、Nvidia+Mellanox
三、关键机制
3.1  核心:RDMA
四、InfiniBand的链路速率
五、InfiniBand 的网络架构
六、IB网络计划典型拓扑
6.1  计算面网络计划
6.2  存储面网络计划
七、Mellanox OFED
7.1  OpenSM 简介
八、IB与ROCE分析对比
九、InfiniBand的商用产品:
IB交换机系列
IB网卡系列(均支持切换以太)
 NVIDIA Unified Fabric Manager (UFM)


一、根本概念

InfiniBand(IB)是一种高性能计算和数据中心网络架构,它的英文直译过来,就是“无线带宽”。
正如大家所见,以GPT为首例的AIGC大模型崛起,整个社会对高性能计算和智能计算的需求井喷。 其计划目标是通过提供低延长、高带宽以及可扩展性来满足大规模计算和数据传输的需求。
文末附当前最新的IB交换机和网卡等产品信息。

二、Nvidia+Mellanox

提及InfiniBand,有一家公司我们是必须提到的,那就是大名鼎鼎的Mellanox
Mellanox在举世InfiniBand市场上的占据率达到80%。他们的业务范围,已经从芯片延伸到网卡、交换机/网关、远程通信系统和线缆及模块全范畴,成为世界级网络提供商。

2019年,英伟达(Nvidia)公司豪掷69亿美元,击败对手英特尔和微软(分别出价60亿和55亿美元),乐成收购了Mellanox。

“这是两家举世领先高性能计算公司的联合,我们专注于加速计算(accelerated computing),而Mellanox专注于互联和存储”。——老黄。
将自家的GPU算力上风与Mellanox的网络上风相联合,就便是打造了一个强大的“算力引擎”。


三、关键机制

简单来说,InfiniBand的诞生目的,就是为了绕过PCI总线。它引入了RDMA协议,具有更低的延长,更大的带宽,更高的可靠性,可以实现更强大的I/O性能。
3.1  核心:RDMA

InfiniBand网络最引人注目的特性之一是远程直接内存访问(RDMA)。RDMA允许数据在不涉及主机CPU的情况下直接在内存中传输,从而低落了通信的延长和CPU的负担。这对于高性能计算和数据中心应用非常重要,特别是在需要大规模数据传输的场景下。

RDMA相当于是一个“清除中间商”的技能。当一台服务器需要从另一台服务器的内存中读取或写入数据时,利用RDMA可以避免涉及中间步调,直接在两台服务器之间进行数据传输,提高了数据传输的效率和速率。
RDMA的内核旁路机制,允许应用与网卡之间的直接数据读写,将服务器内的数据传输时延低落到接近1us。同时,RDMA的内存零拷贝机制,允许接收端直接从发送端的内存读取数据,绕开了核心内存的到场,极大地淘汰了CPU的负担,提拔CPU的效率。


四、InfiniBand的链路速率


现在在智算中心建设中所常说的EDR、HDR、NDR这些是InfiniBand网络接口的一种分类方式,按照数据传输速率的的不同进行区分。具体如下:

   
SDR(Single Data Rate):单倍数据率,即8Gb/s。

  
DDR(Double Data Rate):双倍数据率,即16Gb/s。

  
QDR(Quad Data Rate):四倍数据率,即32Gb/s。

  
FDR(Fourteen Data Rate):十四倍数据率,即56Gb/s。

  
EDR(Enhanced Data Rate):100 Gb/s。

  
HDR(High Data Rate):200 Gb/s。

  
NDR(Next Data Rate):400 Gb/s+。

  这些速率是在一定编码方式下的数据率,在实际应用中大概由于多种因素,如编码效率、数据包头部开销等,实际可用带宽大概低于理论最大值。此外,InfiniBand接口支持通过多个通道(Link)来组合提供更高的带宽 (如通过聚合多个毗连和通道,比方利用4个HDR毗连可实现800 Gb/s的带宽)。

 

五、InfiniBand 的网络架构

InfiniBand 是一种基于通道的结构,组成单位重要分为四类:
   

  • HCA(Host Channel Adapter,主机通道适配器)
  • TCA(Target Channel Adapter,目标通道适配器)
  • InfiniBand link(毗连通道,可以是电缆或光纤,也可以是板上链路)
  • InfiniBand交换机和路由器(组网利用)
  


 

六、IB网络计划典型拓扑

InfiniBand的二层处理过程非常简单,每个InfiniBand子网都会设一个子网管理器,天生16位的LID(本地标识符)。InfiniBand交换机包含多个InfiniBand端口,并根据第二层本地路由标头中包含的LID,将数据包从其中一个端口转发到另一个端口。除管理数据包外,交换机不会消耗或天生数据包。
以下利用127节点给大家简要介绍。
6.1  计算面网络计划


图5展示了完整的127节点DGX SuperPOD的计算网络结构。每组32个节点都沿着机架对齐。在DGX H100系统的每个机架上,每个机架上的流量始终只需一次跳转即可到达同一SU中的其他31个节点。node之间的流量,或者leaf之间的流量,通过spine层进行传输。

如上表格体现了计算网络不同SU(Switching Unit,交换单位)所需的IB交换机数量和IB线缆数量(包含UFM节点)。
6.2  存储面网络计划


 

七、Mellanox OFED

讲完了网络计划,我们看看需要的网卡驱动
Mellanox OFED(OpenFabrics Enterprise Distribution)是一套专门为Mellanox网络适配器计划的软件驱动步伐和工具集,旨在提供对高性能网络技能的支持,特别是针对InfiniBand和以太网技能。这套软件可以或许帮助用户充分利用Mellanox网络装备的高级特性,它支持两种利用相同RDMA(远程直接内存访问)和内核旁路API(称为OFED动词)的互连范例——InfiniBand和Ethernet。支持高达400Gb/s的InfiniBand和基于RDMA over Converged Ethernet(RoCE)尺度)的10/25/40/50/100/200/400GbE。

官方网址链接:Linux InfiniBand Drivers
7.1  OpenSM 简介

OpenSM 软件是符合InfiniBand的子网管理器(SM),运行在Mellanox OFED软件堆栈进行IB网络 管理,管理控制流走业务通道,属于带内管理方式。
所有符合 InfiniBand 的 ULP 都需要始终精确运行在 InfiniBand 结构上运行的子网管理器 (SM)。SM 可以运行在任何节点或 IB 交换机上。OpenSM 是一个与 InfiniBand 兼容的子网管理器,它作为 NVIDIA OFED 1的一部门安装。
OpenSM 包括子网管理器、背板管理器和性能管理器三个组件,绑定在交换机内部的必备部件。提供非常完备的管理和监控本领,如:装备主动发现、装备管理、Fabric可视化、智能分析、健康监测等等。
 

八、IB与ROCE分析对比

面对InfiniBand的赶超,以太网也没有坐以待毙。
2010年4月,IBTA发布了RoCE(RDMA over Converged Ethernet,基于融合以太网的远程直接内存访问),将InfiniBand中的RDMA技能“移植”到了以太网。2014年,他们又提出更加成熟的RoCE v2。



相同点:
相同的RDMA传输层尺度,在同一个尺度组织界说,利用相同的编程接口,共享相同的RDMA应用生态
不同点:
1.IB同子网包头信息短,有用载荷略高。IB接纳信用机制实现流控,相比RoCE接纳PFC流控对芯片缓存要求稍低。
2.ROCE具备以太和IP的上风:大规模网络、网络虚拟化、网络运维等。


九、InfiniBand的商用产品

产品现在更新至2024.11.22
IB交换机系列

网址链接:NVIDIA InfiniBand 交换机 | NVIDIA
QM8700:200G

QM9700:400G


X800:800G



IB网卡系列(均支持切换以太)

网址链接:NVIDIA InfiniBand 网卡 | NVIDIA
CX5:100G


CX6:200G


CX7:400G


CX8:800G


 NVIDIA Unified Fabric Manager (UFM)

UFM 平台可助力科研和行业数据中心操纵职员对 InfiniBand 数据中心网络进行高效调配、监控、管理、预防性故障排除及维护。UFM 平台包含多个不同级别的解决方案和全面的功能集,可满足广泛的当代横向扩展数据中心需求。借助 UFM,您可以实现更高的网络资源利用率、获得竞争上风,并淘汰运营支出。
官方链接:NVIDIA Unified Fabric Manager (UFM) | NVIDIA


码字不易,谢谢点赞与关注

免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
回复

使用道具 举报

0 个回复

倒序浏览

快速回复

您需要登录后才可以回帖 登录 or 立即注册

本版积分规则

嚴華

金牌会员
这个人很懒什么都没写!

标签云

快速回复 返回顶部 返回列表