ToB企服应用市场:ToB评测及商务社交产业平台

标题: 什么是超融合数据中心网络? [打印本页]

作者: 美丽的神话    时间: 2022-6-21 11:24
标题: 什么是超融合数据中心网络?




数据中心网络连接数据中心内部通用计算、存储和高性能计算资源,服务器间的所有数据交互都要经由网络转发。当前,IT架构、计算和存储技术都在发生重大变革,驱动数据中心网络从原来的多张网络独立部署向全以太化演进。而传统的以太网无法满足存储和高性能计算的业务需求。超融合数据中心网络以全无损以太网来构建新型的数据中心网络,使通用计算、存储、高性能计算三大种类业务均能融合部署在一张以太网上,同时实现全生命周期自动化和全网智能运维。
为什么会产生超融合数据数据中心网?

现状:数据中心内有三张网络

数据中心内部有三类典型的业务:通用计算(一般业务)、高性能计算(HPC)业务和存储业务。每类业务对于网络有不同的诉求,比如:HPC业务的多节点进程间通信,对于时延要求非常高;而存储业务对可靠性诉求非常高,要求网络0丢包;通用计算业务规模大,扩展性强,要求网络低成本、易扩展。
由于上述业务对网络的要求不同,当前数据中心内部一般会部署三张不同的网络:


数据中心内的三张网络AI时代的变化1:存储和计算能力大幅提升,网络成为瓶颈

企业数字化过程中将产生大量的数据,这些数据正在成为企业核心资产通过AI技术从海量数据中挖掘价值成为AI时代不变的主题。通过AI机器学习利用各种数据辅助实时决策,已经成为企业经营的核心任务之一。与云计算时代相比,AI时代企业数据中心的使命正在从聚焦业务快速发放向聚焦数据高效处理转变。


数据中心正在从云计算时代走向AI时代
为了提升海量AI数据处理的效率,存储和计算领域正在发生革命性的变化:

随着存储介质和计算能力的大幅提升,在高性能的数据中心集群系统中,当前网络通信的时延成为应用整体性能进一步提升的瓶颈,通信时延在整个端到端时延中占比从10%上升到60%以上,也就是说,宝贵的存储或计算资源有一半以上的时间是在等待网络通信


总的来说,随着存储介质和计算处理器的演进,网络的低效阻碍了计算和存储性能的发挥;只有将通信时长降低到与计算和存储接近,才能消除木桶原理中的“短板”,提升应用整体的性能。
AI时代的变化2:RDMA替代TCP/IP成为大势所趋,但RDMA的网络承载方案存在不足



如下图所示,在服务器内部,由于TCP协议栈在接收/发送报文,以及对报文进行内部处理时,会产生数十微秒的固定时延,这使得在AI数据运算和SSD分布式存储这些微秒级系统中,TCP协议栈时延成为最明显的瓶颈。另外,随着网络规模的扩大和带宽的提高,宝贵的CPU资源越来越地多被用于传输数据。


RDMA(Remote Direct Memory Access)允许应用与网卡之间的直接数据读写,将服务器内的数据传输时延降低到接近1us。同时,RDMA允许接收端直接从发送端的内存读取数据,极大减少了CPU的负担。


RDMA与TCP的对比
根据业务的测试数据, 采用RDMA可以将计算的效率同比提升6~8倍;而服务器内1us的传输时延也使得SSD分布式存储的时延从ms级降低到us级成为可能,所以在最新的NVMe(Non-Volatile Memory express)接口协议中,RDMA成为主流的默认网络通信协议栈。因此,RDMA替换TCP/IP成为大势所趋。


在服务器之间的互联网络中,当前有两种方案来承载RDMA:专用InfiniBand网络和传统IP以太网络,然而,它们都存在不足:

因此,RDMA的高效运行,离不开一个0丢包、高吞吐的开放以太网作为承载。
AI时代的变化3:分布式架构成为趋势,加剧网络拥塞,驱动网络变革



在企业的数字化转型中,以金融和互联网企业为代表,大量的应用系统迁移到分布式系统上:通过海量的PC平台替代传统小型机,带来了成本低廉、易扩展、自主可控等优势,同时也给网络互联带来了挑战:


分布式架构流量模型示意
什么是超融合网数据中心网络的核心指标?

从上一节来看,为了满足AI时代的数据高效处理诉求、应对分布式架构挑战,0丢包、低时延、高吞吐成为下一代数据中心网络的三个核心指标。这三个核心指标是互相影响,有跷跷板效应,同时达到最优有很大的挑战。



三个核心指标相互影响
同时满足0丢包、低时延、高吞吐,背后的核心技术是拥塞控制算法。通用的无损网络的拥塞控制算法DCQCN(Data Center Quantized Congestion Notification),需要网卡和网络进行协作,每个节点需要配置数十个参数,全网的参数组合达到几十万;为了简化配置,只能采用通用的配置,导致针对不同的流量模型,常常无法同时满足这三个核心指标。
超融合数据中心网络与HCI有什么异同?

HCI(Hyper-Converged Infrastructure,超融合基础架构)是指在同一套单元设备中不但具备了计算、网络、存储和服务器虚拟化等资源和技术,而且多套单元设备可以通过网络聚合起来,实现模块化的无缝横向扩展(Scale—Out),形成统一的资源池。


HCI将虚拟化计算和存储整合到同一个系统平台。简单地说就是物理服务器上运行虚拟化软件(Hypervisor),通过在虚拟化软件上运行分布式存储服务供虚拟机使用。分布式存储可以运行在虚拟化软件上的虚拟机里也可以是与虚拟化软件整合的模块。广义上说,HCI既可以整合计算和存储资源,还可以整合网络以及其它更多的平台和服务。目前业界普遍认为,软件定义的分布式存储层和虚拟化计算是HCI架构的最小集。


与HCI不同,超融合数据中心网络只专注于网络层面,提供全新的计算、存储互联的网络层方案。使用超融合数据中心网络,不需像HCI那样对计算资源、存储资源进行改造和融合,并且基于以太网很容易实现成低成本的快速扩容。


的超融合数据中心网络,基于开放以太网,通过独特的AI算法,可以使以太网络同时满足低成本,0丢包和低时延的诉求。超融合数据中心网络成为AI时代的数据中心构建统一融合的网络架构的最佳选择。


从独立组网到统一融合的组网超融合数据数据中心网络有什么价值?

传统的FC专网和IB专网,价格昂贵,生态封闭,且需要专人运维,也不支持SDN,无法满足云网协同等自动化部署的诉求。
使用华为超融合数据中心网络具有以下价值:

超融合数据数据中心网络如何工作?
上文提到,使用以太网来承载RDMA流量,目前使用的协议为RoCE(RDMA over Converged Ethernet)v2。华为超融合数据中心网络,使用iLossless智能无损算法构建无损以太网络,是一系列技术的合集,通过以下三个方面技术的相互配合,真正解决传统以太网络拥塞丢包的问题,为RoCEv2流量提供“无丢包、低时延、高吞吐”的网络环境,满足RoCEv2应用的高性能需求。




转载申明:转载本号文章请注明作者来源,本号发布文章若存在版权等问题,请留言联系处理,谢谢。


推荐阅读

更多架构相关技术知识总结请参考“架构师全店铺技术资料打包”相关电子书(37本技术资料打包汇总详情可通过“阅读原文”获取)。

全店内容持续更新,现下单“全店铺技术资料打包(全)”,后续可享全店内容更新“免费”赠阅,价格仅收198元(原总价350元)。




温馨提示:
扫描二维码关注公众号,点击阅读原文链接获取架构师技术全店资料打包汇总(全)电子书资料详情。




来源:http://mp.weixin.qq.com/s?src=11&timestamp=1655783181&ver=3873&signature=lvAdMbiXhv*2wyjAV8j6huAZq4oicfssYenUopPsOPwrez7VaC6iX*fx*wia4uASfKYLblwfOBgKfeHZ*1zAHcOe7IRk4u3aMCs627Zq7dVbYDx58dTsmCT-53nSY3kK&new=1
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!




欢迎光临 ToB企服应用市场:ToB评测及商务社交产业平台 (https://dis.qidao123.com/) Powered by Discuz! X3.4