存算一体架构或成为AI处置处罚器技能发展关键

打印 上一主题 下一主题

主题 1026|帖子 1026|积分 3078

马上注册,结交更多好友,享用更多功能,让你轻松玩转社区。

您需要 登录 才可以下载或查看,没有账号?立即注册

x

©作者|坚果

泉源|神州问学


 弁言
马斯克巨资60亿美元打造的“超级算力工场”,通过串联10万块顶级NVIDIA H100 GPU,不仅震撼了AI和半导体行业,促使英伟达股价应声上涨6%,还强烈暗示了AI大模子及芯片需求的急剧膨胀。这一行动不仅是马斯克对AI未来的大胆押注,也成为了环球企业加快结构AI芯片领域的催化剂,预示着一场科技革新竞赛的全面升级,各方竞相提拔算力,争夺AI期间的战略高地。观察近期Blackwell与Gaudi 3芯片的计划优化路径,不难发现GPU芯片制造商已在差异程度上汲取了存算一体技能的精髓,尤其侧重于近存计算架构的采纳,以此直面大模子对高算力与高存储需求的挑衅。

存算一体技能详解
存算一体(Computational Memory或In-Memory Computing)的概念并非新近才出现,而是计算机科学领域一个长期的研究方向。它的劈头可以追溯到早期计算机架构的探索,旨在克服冯·诺依曼架构的局限性,特别是数据传输带宽瓶颈(通常称为“内存墙”)的标题。

存算一体技能的已往和现在
追溯至上世纪80年代,存算一体的概念初现端倪,彼时研究者开始探究怎样在存储器内部直接举行计算,以减少数据在处置处罚器与内存之间频仍移动带来的延迟与能耗。然而,受限于当时的材料科学与制造工艺,早期的尝试多停顿在理论探索与开端原型阶段。进入21世纪,随着纳米科技、新材料与先辈制造技能的飞速发展,存算一体技能迎来了突破性盼望。新型非易失性存储器,如相变存储器(PCM)、磁阻随机存取存储器(MRAM)和电阻式随机存取存储器(RRAM),因其具备高速度、低功耗及非易失性等特点,成为实现存算一体的关键载体。这些存储技能不仅可以或许存储信息,还能在其存储单位上直接实验根本逻辑运算,从而大幅缩短数据传输距离,显著提拔团体计算效能。近年来,存算一体技能在学术界与财产界均得到了广泛关注与投资,多家科研机构与企业已研发出原型产品。比方,英特尔的Optane DC长期内存结合了DRAM的高速度与NAND闪存的非易失性,展现了存算一体的部分潜力;而IBM、三星、惠普实验室等也在探索将存算一体应用于人工智能、大数据分析等领域,以期构建更高效能的计算平台。

存算一体技能原理和分类
存算一体芯片根本架构图所示,神经网络模子的权重可以映射为子阵列中存储单位的电导率,而输入特征图(Feature map)作为行电压并行加载(图中WL方向),然后以模拟方式举行乘法(即输入电压乘以权重电导),并利用列上的电流求和(图中BL方向)来生成输出向量。


图源:
https://www.bilibili.com/video/BV1hF411a7wt/?from=search&seid=3978061323598318972&spm_id_from=333.337.0.0

按照计算单位和存储单位的距离,存算一体技能大抵分为近存计算(PNM)、存内处置处罚(PIM)、存内计算(CIM)。
存内处置处罚 则紧张侧重于将计算过程尽大概地嵌入到存储器内部。这种实现方式旨在减少处置处罚器访问存储器的频率,因为大部分计算已经在存储器内部完成。这种计划有助于消除冯·诺依曼瓶颈带来的标题,提高数据处置处罚速度和服从。
近存计算 是一种较为成熟的技能路径。它利用先辈的封装技能,将计算逻辑芯片和存储器封装到一起,通过减少内存和处置处罚单位之间的路径,实现高I/O密度,进而实现高内存带宽以及较低的访问开销。近存计算紧张通过2.5D、3D堆叠等技能来实现,广泛应用于各类CPU和GPU上。
存内计算 同样是将计算和存储合二为一的技能。它有两种紧张思绪。第一种思绪是通过电路革新,让存储器自己就具有计算本领。这通常必要对SRAM或者MRAM等存储器举行改动,以在数据读出的decoder等地方实现计算功能。这种方法的能效比通常较高,但计算精度大概受限。
存算一体技能的最终目标是提供一种计算平台,它可以或许显著降低数据搬运的本钱,提高计算服从,特别是在大规模并行计算和呆板学习任务中展现出巨大的潜力。然而,这一领域的研究和开发仍面临诸多挑衅,包括技能成熟度、可扩展性、本钱和标准化等标题。

AI处置处罚器架构参考近存计算原则
今年推出性能优化的两款高性能AI芯片,都差异程度优化了内存模块以拓展显存容纳更大规模的参数。

NVIDIA Blackwell
今年3月18日NVIDIA 在GTC公布推出 NVIDIA Blackwell 架构以赋能计算新期间。

图源:
https://www.nvidia.cn/data-center/technologies/blackwell-architecture/

Blackwell 架构 GPU 具有 2080 亿个晶体管,采用专门定制的台积电 4NP 工艺制造。所有 Blackwell 产品均采用双倍光刻极限尺寸的裸片,通过 10 TB/s 的片间互联技能连接成一块同一的 GPU。Blackwell架构的GPU,作为高性能计算和AI加快器,参考近存计算的架构高度集成计算单位和存储单位。
Blackwell GPU以集成的 HBM3E内存为核心,实现8Gbps速度与8TB/s带宽,大幅缩减数据传输至计算单位的时间,有用降延迟、控能耗。其计算单位与内存的协同计划,确保了数据的快速访问与高效利用,破解数据传输瓶颈。结合Grace CPU的系统集成,更促进了计算与内存管理的无缝衔接,共享数据机制减少了跨资源传输,虽非存内计算,却通过内存与计算的紧密融合,实现了减少数据移动、提拔计算效能的目标,与存算一体架构理念不谋而合。

Gaudi
今年4月9日晚,英特尔在美国召开了“Intel Vision 2024”大会发布了Gaudi 3 AI芯片。Gaudi 3 拥有 8 个矩阵数学引擎、64 个张量内核、96MB SRAM(每个Tile 48MB,可提供12.8 TB/s的总带宽) 和 128 GB HBM2e 内存,16 个 PCIe 5.0 通道和 24 个 200GbE 链路 。在计算核心的四周,则是八个HBM2e内存堆栈,总容量为128 GB,带宽为3.7 TBps。训练性能比英伟达H100快了40%,推理快了50%。


图源:
https://www.intel.com/content/www/us/en/content-details/817486/intel-gaudi-3-ai-accelerator-white-paper.html

Gaudi 3 AI加快器通过一系列优化,深刻解释了近存计算的精髓。其搭载的128GB HBM2e内存,以超高的数据传输速率削减访问延迟;双计算集群Chiplet计划让计算贴近数据,减少移动距离;增强的网络带宽优化了分布式计算中的数据交换,有用降低节点间通讯延迟;AI专用计算单位针对矩阵与卷积运算举行高效优化,间接促进数据访问服从。所有这些计划,均致力于减少数据移动,提拔计算效能,完美呼应了近存计算减少延迟、降低能耗的核心目标。

其他
除了以上厂家其他厂家也采用了近存计算或类似架构原则。

AMD MI200系列 GPU:
AMD的Instinct MI200系列GPU采用了3D V-Cache技能,以及HBM2e内存,提供了高带宽数据访问,旨在减少数据传输延迟。

Groq Tensor Processing Unit (TPU):
Groq的TPU采用了独特的架构计划,此中包括了大规模的片上SRAM,以及高度并行的计算单位,旨在提供低延迟和高吞吐量的计算情况。

Graphcore IPU:
Graphcore的Intelligence Processing Units (IPUs) 计划有大规模的片上内存,以及分布式内存架构,以减少数据移动,提高呆板学习模子的训练和推理速度。

存算一体架构办理大模子高算力高存储的需求

大模子高算力高存储需求的挑衅
大模子计算任务对高算力的依靠源于其参数目标天文数字——如GPT-3的1750亿参数——以及数据麋集型训练需求,后者涉及处置处罚570GB规模的文本数据集。模子的深度与宽度、高维特征的处置处罚、训练迭代中的权重更新,以致分布式训练的和谐,无一不在考验着系统的计算极限。此外,模子优化和探索阶段的资源消耗也不容小觑。为此,当代数据中央装备了高性能GPU、TPU及配套底子办法,旨在支持这一计算盛宴。
高存储挑衅则聚焦于显存的极限。大模子的海量参数,即便是采用FP16或BF16低精度表示,也需占用大量存储空间。前向与反向传播产生的中央效果、优化器状态维护、肴杂精度训练中的精度转换,以及批量处置处罚和数据预处置处罚阶段的临时数据生成,均显著提拔了显存需求。尤其是模子推理阶段,面临长序列或高分辨率数据,显存消耗尤为突出。因此,诸如NVIDIA A100 GPU配备的80GB HBM2显存成为须要,以应对大规模模子的训练与推理需求。

存算一体架构上风
存算一体架构针对大模子运算的高算力和高存储需求,展现出了显著上风,通过在存储单位当地实验计算,极大地减少了数据在CPU和内存之间传输的延迟和能量损耗,从而大幅度提拔了计算服从。这种架构特别适合处置处罚拥有海量参数和大规模数据集的大模子,如深度神经网络,因为它能有用地办理“存储墙”标题,确保即使在处置处罚高维特征空间和举行复杂的模子优化时,也能保持高性能和低功耗,是实现未来高性能计算的关键技能之一。

结论
随着数字化程度的日益加深,数字资产随之累积,导致大模子所需的数据源愈发丰富,模子参数目亦呈指数级增长。这无疑对AI处置处罚器提出了更高的要求,不仅必要更强大的存储本领来容纳这些海量数据,还必须具备更快的运算本领以实现高效处置处罚。当前,AI处置处罚器的研发正从多方面展开创新,除了持续优化科学计算的根本处置处罚单位结构,还积极探索借鉴存算一体架构中的近存计算计划理念,旨在通过缩短数据读取路径,扩大存储规模并减少数据传输中的能耗,从而大幅提拔服从。显然,存算一体架构已成为驱动AI芯片技能进步的关键因素。



免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
回复

使用道具 举报

0 个回复

倒序浏览

快速回复

您需要登录后才可以回帖 登录 or 立即注册

本版积分规则

科技颠覆者

论坛元老
这个人很懒什么都没写!
快速回复 返回顶部 返回列表