张国伟 发表于 2024-10-2 19:30:41

华为集合通信库开源了!HCCL开源链接、架构、拓扑算法、常用接口

冲动啊!我们华为HCCL终于开源了!
视频分享在这:
华为集合通信库开源了!HCCL开源链接、拓扑算法、常用接口_哔哩哔哩_bilibili
一、HCCL相关链接

源码位置(需注册华为账号才可下载)
cann-hccl: cann-hccl,是基于昇腾硬件的高性能集合通信库(Huawei Collective Communication Library,简称HCCL)。
HCCL主页 
HCCL-昇腾社区
HCCL官方视频教程 
昇腾社区-官网丨昇腾万里 让智能无所不及
HCCL文档 
HCCL接口简介-集合通信接口-CANN商用版8.0.RC2开辟文档-昇腾社区
HCCL性能测试工具
工具介绍-HCCL性能测试工具-练习推理开辟工具-开辟工具-CANN商用版8.0.RC2开辟文档-昇腾社区
二、HCCL介绍

2.1 概述

华为集合通信库(Huawei Collective Communication Library,简称HCCL)是基于昇腾AI处置惩罚器的高性能集合通信库,提供单机多卡以及多机多卡间的数据并行、模子并行集合通信方案。
HCCL的软件架构如下图所示,分为“通信框架”、“通信算法”与“通信平台”三个模块,本源码仓中包含了其中紫色底纹所示的“通信框架”与“通信算法”两个模块的源码。

https://i-blog.csdnimg.cn/blog_migrate/b354037ea8b4295c8e3f8228578d42e5.png


[*]适配层,图引擎与单算子适配,举行通信切分寻优等操纵。
[*]集合通信业务层,包括通信框架与通信算法两个模块:

[*]通信框架:负责通信域管理,通信算子的业务串联,协同通信算法模块完成算法选择,协同通信平台模块完成资源申请并实现集合通信任务的下发。
[*]通信算法:作为集合通信算法的承载模块,提供特定集合通信操纵的资源计算,并根据通信域信息完成通信任务编排。

[*]集合通信平台层,提供NPU之上与集合通信关联的资源管理,并提供集合通信维测能力。
 2.2 支持的拓扑算法

HCCL源码仓提供了Mesh、Ring、Recursive Halving-Doubling(RHD)、PairWise四种拓扑算法的实现源码。
算法描述原理与耗时MeshServer内通信算法,是Mesh互联拓扑的基础算法。MeshRingServer内和Server间通信算法,是基于环结构的并行调治算法。
Server间通信场景下,适用于小规模节点数(<32机,且非2幂)和中大规模通信数据量(>=256M)的场景。RingRHDServer间通信算法,递归二分和倍增算法,当通信域内Server个数为2的整数次幂时,此算法具有较好的亲和性。RHDPairwiseServer间通信算法,比较算法,仅用于AllToAll与AlltoAllV算子,适用于数据量较小(<=1M * RankSize)的场景。PairWiseStarServer内通信算法,Star算法适用于有根节点的通信操纵(如Broadcast、Reduce、Gather、Scatter等),利用星型拓扑或全毗连拓扑一步完成通信操纵。Star 2.2.1 服务器内的Ring拓扑
如下图所示,可构建4个逻辑ring环:
左图的黄线表示PCIe,蓝线表示HCCS(High-speed Custom Communication System)是华为为其昇腾(Ascend)系列 AI 处置惩罚器筹划的高速互连技术。 
https://i-blog.csdnimg.cn/direct/4b06fb4c3958411aa9943254733bad4b.png 2.2.2 服务器间的Halving doubling
https://i-blog.csdnimg.cn/direct/2fbc49cfcd7f400abaad773c25883b39.png
  2.2.2 服务器内和间拓扑算组合

这里针对AllReduce集合通信
框内代表服务器内,框间代表服务器间。
https://i-blog.csdnimg.cn/direct/b15fd013735a426ca7bcad4870ff53b0.png
https://i-blog.csdnimg.cn/direct/189567fa7e124264ba5c445fca69f041.png 三、HCCL常用接口

https://i-blog.csdnimg.cn/direct/7803caa7fc1c43759aedc31945283c0b.png
四、源码居然有一些中文注释

多少年源码内里没看到中文了,看的我快哭了!
https://i-blog.csdnimg.cn/direct/59aa785b01a54dcfb1f957c2173843b0.png

免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
页: [1]
查看完整版本: 华为集合通信库开源了!HCCL开源链接、架构、拓扑算法、常用接口