qidao123.com技术社区-IT企服评测·应用市场

标题: 存算一体架构下的新型AI加速范式:从Samsung HBM-PIM看近内存盘算趋势 [打印本页]

作者: 祗疼妳一个    时间: 2025-5-6 09:07
标题: 存算一体架构下的新型AI加速范式:从Samsung HBM-PIM看近内存盘算趋势
引言:突破"内存墙"的物理革命

冯·诺依曼架构的"存储-盘算分离"计划正面对根本性挑衅——在GPT-4等万亿参数模子中,数据搬运能耗已达盘算本身的200倍。存算一体(Processing-In-Memory, PIM)技术通过‌在存储介质内部集成盘算单元‌,开辟了突破"内存墙"的新路径。本文将聚焦三星HBM-PIM计划,解析近内存盘算怎样重塑AI加速器的能效界限。
一、HBM-PIM架构的颠覆性计划

1.1 传统HBM与PIM架构对比

三星2021年发布的HBM-PIM芯片在DRAM Bank中植入‌可编程AI引擎‌

关键创新点‌

1.2 芯片级架构解析

HBM-PIM的3D堆叠计划包含核心组件:
  1. ┌───────────────────────┐  
  2. │  Host Interface Layer │  
  3. ├───────────────────────┤  
  4. │  Buffer Chip          │  
  5. │  (TSV Interposer)     │  
  6. ├───────────────────────┤  
  7. │  DRAM Layer           │  
  8. │  ┌───────┬───────┐    │  
  9. │  │ Bank 0│ Bank 1│ ...│  
  10. │  │  MAC  │  MAC  │    │  
  11. │  └───────┴───────┘    │  
  12. └───────────────────────┘  
复制代码
每个Bank内的AI引擎可并行实行:
  1. // HBM-PIM指令流水线示例  
  2. always @(posedge clk) begin  
  3.     if (cmd_decoder == MAC_OP) begin  
  4.         // 从本地row buffer读取数据  
  5.         operand_a = row_buf[addr_a];  
  6.         operand_b = row_buf[addr_b];  
  7.         // 执行乘累加  
  8.         mac_result <= operand_a * operand_b + mac_accumulator;  
  9.         // 结果写回指定row  
  10.         row_buf[addr_c] <= mac_result[31:16];  
  11.     end  
  12. end  
复制代码
该计划使ResNet-50的推理能效提拔2.8倍,延迟低沉40%。
二、近内存盘算的体系级创新

2.1 数据流重构范式

HBM-PIM引入‌盘算流式传输‌模式,与传统架构对比:
‌传统架构数据流‌
  1. DRAM → PHY → GDDR Bus → I/O Die → Compute Core  
复制代码
‌PIM架构数据流‌
  1. DRAM Bank → Local MAC → Result Aggregation → Host  
复制代码
在Llama-2 7B模子测试中,该方案减少89%的片外数据搬运。
2.2 新型编程模子

三星提供SDK支持C++扩展语法:
  1. #pragma pim_parallel  
  2. void vec_add(int* a, int* b, int* c, int len) {  
  3.     #pragma pim_for  
  4.     for (int i = 0; i < len; ++i) {  
  5.         c[i] = a[i] + b[i];  // 在PIM阵列执行  
  6.     }  
  7. }  
复制代码
编译器自动生成:

三、性能实测与优化分析

3.1 典型AI负载测试

在AMD MI250X + HBM-PIM平台上对比:

3.2 关键优化技术



  1. def compensation(grad):  
  2.     scale = torch.mean(torch.abs(grad))  
  3.     return grad * scale / 127.0  
复制代码

四、技术挑衅与演进方向

4.1 当前技术瓶颈


4.2 前沿突破方向




五、产业应用启示

美光2024年发布的HBM4-PIM路线图表现:

这将使大模子训练出现颠覆性变革:

结语:架构重构的临界点

存算一体不是简朴的技术改良,而是对盘算本质的重新思考。当HBM-PIM将能效界限推向10 TFLOPS/W,我们正站在架构革命的临界点。这场变革的终极目的,是让盘算回归数据本源——‌在比特诞生的地方处理比特‌
本文实行数据基于Samsung Aquabolt-XL HBM-PIM实测,更多技术细节请参考ISSCC 2023论文《A 1ynm 16Gb 4.8TFLOPS/W HBM-PIM with Bank-Level Programmable AI Engines》。

免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。




欢迎光临 qidao123.com技术社区-IT企服评测·应用市场 (https://dis.qidao123.com/) Powered by Discuz! X3.4