带宽优化新思路:RoCE网卡聚合实现X2增长

打印 上一主题 下一主题

主题 670|帖子 670|积分 2010

本文分享自华为云社区《2个RoCE网卡Bond聚合,实现带宽X2》,作者: tsjsdbd 。
我们知道操作系统里面,可以将2个实际的物理网卡,合体形成一个“逻辑网卡”,从而达到如主备/提升带宽等目的。但是RoCE网卡,是否也跟普通网卡一样,支持Bond能力呢?答案是的,RoCE也可以组Bond,只是比普通网卡多了一些约束。

今天我们就来实际操作一下这个过程,并了解其中需要注意的地方。也欢迎一起交流学习。
一、RoCE网卡链路聚合(LAG)

根据找到的资料:https://mellanox.my.site.com/mellanoxcommunity/s/article/How-to-Configure-RoCE-over-LAG-ConnectX-4-ConnectX-5-ConnectX-6 里面说的,RoCE网卡的Bond,只支持3种模式:

  • 模式1(主备)
  • 模式2(负载均衡)
  • 模式4(链路聚合)
相比普通网卡总共0-6共七种模式而言,算是打了大折。好在我们想要的“提升带宽”的模式还是有的。
二、服务器执行双网卡聚合(Bond)操作

不同的操作系统,执行Bond的命令不一样。这里我实际操作的是Ubuntu22.04,使用自带的 netplan工具,执行bond过程如下:
修改:
  1. vi /etc/netplan/00-installer-config.yaml
  2. network:
  3.   ethernets:
  4.     ens3f0np0
  5.       dhcp4: no
  6.     ens3f1np1
  7.       dhcp4: no
  8.   version: 2
  9.   renderer: networkd
  10.   bonds:
  11.     bond0:
  12.       interfaces: [ens3f0np0, ens3f1np1]
  13.       parameters:
  14.         mode: 802.3ad
  15.         mii-monitor-interval: 1
  16.         lacp-rate: faset
  17.         transmit-hash-policy: layer3+4
  18.       addresses: [10.10.2.20/24]
复制代码
执行:
  1. netplan apply
复制代码
后,就可以看到一个叫“bond0”的网卡了。
这里,咱们配置的bond里面有2个重要的参数:
(1)选择bond模式4,即802.3ad(链路聚合)
(2)transmit-hash-policy,负载均衡策略,有以下3种值:

这里由于RDMA点对点通信的时候,IP+MAC地址都不会变。所以咱选 layer3+4,毕竟发送报文的时候,源端口还是随机的。
附CentOS的操作供参考:
新建bond口
  1. nmcli con add type bond ifname tsjbond0 bond.options "mode=2,miimon=100,updelay=100,downdelay=100"
复制代码
添加子网卡
  1. nmcli con add type ethernet ifname enp80s0f0 master tsjbond0
  2. nmcli con add type ethernet ifname enp80s0f1 master tsjbond0
复制代码
激活子网卡
  1. nmcli con up bond-slave-enp80s0f0
  2. nmcli con up bond-slave-enp80s0f1
复制代码
修改了bond卡的配置
  1. vi /etc/sysconfig/network-scripts/ifcfg-bond-tsjbond0
  2. IPADDR=29.28.195.228
  3. NETMASK=255.255.240.0
复制代码
修改2子网卡配置
  1. vi /etc/sysconfig/network-scripts/ifcfg-enp80s0f0
  2. DEVICE=enp80s0f0
  3. TYPE=Ethernet
  4. ONBOOT=yes
  5. MASTER= tsjbond0
  6. SLAVE=yes
  7. BOOTPROTO=none
复制代码
激活bond卡
  1. ifup bond-slave-enp80s0f0
  2. ifup bond-slave-enp80s0f1
  3. ifdown bond-tsjbond0
  4. ifup bond-tsjbond0
复制代码
三、服务器为新网卡开启PFC流控

执行如下命令,首先设置MTU:
  1. ifconfig bond0 mtu 4200
复制代码
然后开启队列4的pfc流控策略:
  1. mlnx_qos -i ens3f0np0 --pfc=0,0,0,0,1,0,0,0 --turst=dscp
  2. mlnx_qos -i ens3f1np1 --pfc=0,0,0,0,1,0,0,0 --turst=dscp
  3. cma_roce_mode -d mlx5_bond_0 -p 1 -m 2
  4. echo 128 > /sys/class/infiniband/mlx5_bond_0/tc/1/traffic_class
复制代码
其中,前2条命令需要分别为bond下的各个子网卡开启pfc。
然后,mlx5_bond_0 可以通过 ibdev2netdev 命令查询得到。
最后一条echo 128命令,是指强制网卡发送的报文的Traffic Class为128,即匹配网卡发送队列4。不设置的话也行,可以通过 NCCL_IB_TC=128 达成相同的目的。详细可以参考《为什么华为云上AI训练必须设置NCCL_IB_TC=128》一文。
四、交换机执行双网口聚合(LACP)

不同的交换机开启LACP模式的命令不一样,这里型号是 CE9860。执行如下:
开启eth-trunk口。
  1. interface Eth-Trunk1
  2. port link-type trunk
  3. mode lacp-static
复制代码
然后切换到对应的网口,使其加入到这个trunk口。
  1. interface GigabitEthernet0/0/1
  2. eth-trunk 1
  3. interface GigabitEthernet0/0/2
  4. eth-trunk 1
复制代码
命令操作基本这个思路,另外,LACP的LB策略,是通过修改 load-balance profile default配置完成的:
  1. eth-trunk hash-mode ?
  2.   INTEGER<1-9> Different hash mode provide different load distribution result for egress traffic flows from a trunk, the default is 1
  3.   For Eth-Trunk, mode 1 is suggested
  4.   For SMAC change, mode 1/2/6/7 is suggested
  5.   For SIP change, mode 1/5/7/9 is suggested
  6.   For DIP change, mode 5/6 is suggested
  7.   For DMAC&SMAC change, mode 9 is suggested
  8.   For SMAC+SIP change, mode 5/6 is suggested
复制代码
默认值是1。
五、交换机为对应端口开启PFC流控

交换机上执行:
  1. qos buffer headroom-pool size 20164 cells slot 1
  2. interface 400 x/x/x
  3. trust dscp
  4. dcb pfc enable mode manual
  5. dcb pfc buffer 4 xoff dynamic 4 hdrm 3000 cells
  6. commit
复制代码
上面的命令,其实除了开启pfc之外,还设置了网口对应的buffer大小。具体参数值大小自己看着办。
六、RDMA流量带宽测试

这个就是咱们平时经常用的带宽测试命令了:
首先服务器端,启动Server,
ib_write_bw -s 8388608 -F --run_infinitely -x 3 -q 8 --report_gbits
然后Client开始给服务端打流:
ib_write_bw -s 8388608 -F --run_infinitely -x 3 10.10.2.20 -q 8 --report_gbits
其中 -x参数设置为3,是表示使用 RoCE V2协议。
参数 --run_infinitely 可以让测试一直进行而不停止。
-q 表示使用多个QPS(Queue-Pairs)流。对应 NCCL_IB_QPS_PER_CONNECTION,可以尝试设大一点试试效果。
示意的一个结果如下:

七、服务器端统计信息

查询队列4的报文数量:
watch -n 2 “ethtool -S ens3f0np0 | grep prio4”

这个报文数不会减少,清零不方便,好像重启服务器数量也不会清0。
只找到了通过卸载IB模块来达到清空统计数的目的(假如需要的话):
  1. rmmod mlx5_ib
  2. rmmod mlx5_core
  3. modprob mlx5_core
复制代码
查询网卡温度:
mget_temp -d mlx5_bond_0
可以看到温度,一般都是62/63度左右。

八、小结

本文只是操作记录,用于互相交流,不一定是最佳实践,自己有选择的看。
因为官网https://mellanox.my.site.com/mellanoxcommunity/s/article/How-to-Configure-RoCE-over-LAG-ConnectX-4-ConnectX-5-ConnectX-6
这么写的:

点击关注,第一时间了解华为云新鲜技术~
 

免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

x
回复

使用道具 举报

0 个回复

正序浏览

快速回复

您需要登录后才可以回帖 登录 or 立即注册

本版积分规则

杀鸡焉用牛刀

金牌会员
这个人很懒什么都没写!

标签云

快速回复 返回顶部 返回列表