ScaleFlux CSD5000赋能AI练习存储架构(附测试陈诉)

打印 上一主题 下一主题

主题 1876|帖子 1876|积分 5628

在天生式人工智能(Generative AI)及大型语言模型(LLMs)迅猛发展的形势下,AI 对底层存储架构的需求愈发紧急。英伟达 2024 年调查表现,49% 的客户筹划当地与云端同步摆设 AI 项目,这使得高性能存储在跨情况摆设中的关键地位愈发凸显。然而,传统 HPC 并行文件系统和扩展 NAS 在性能、成本及管理方面面临诸多难题。
  MLPerf Storage 基准测试是衡量存储系统在机器学习工作负载下性能的关键指标。Hammerspace 发布的 MLPerf® Storage v1.0 测试陈诉有力地彰显了其存储系统于高性能盘算存储领域的优势。
相比Dell PowerScale等扩展NAS架构,Hammerspace通过利用尺度以太网,减少50%的服务器和网络端口,避免了专用网络和客户端软件的需求,大幅低落了成本和功耗,在跨当地与云端情况摆设中发挥了重要作用,特别是在支持大规模AI练习任务(如Meta的Llama模型)时,展现了其强大的适应性与性能。
陈诉中的测试详情主要包罗两种配置:

1.公有云超大规模 NAS 配置:云端性能无缝对接

1.1 测试配景: 该测试在 AWS 的公有云基础设施上进行,模拟了一个超大规模 NAS 存储情况。该配置包罗 2 个 Anvil 元数据服务器和最多 22 个 Linux 存储服务器节点,并通过 200GbE 或 100GbE 网络连接,利用 pNFSv4.2 协议挂载。 
1.2 测试结果:


  • 在 ResNet-50 测试中,22 个 Linux 存储服务器驱动了 370 个模拟 A100 GPU 和 130 个模拟 H100 GPU,实现了 33.7GB/s 和 23.3GB/s 的聚合读性能。
  • 在 3D-Unet 测试中,系统驱动了 35 个模拟 A100 GPU 和 10 个模拟 H100 GPU,分别实现了 50.3GB/s 和 23.7GB/s 的吞吐量。
2. 带 Tier 0 的超大规模 NAS 配置:ScaleFlux CSD5000赋能AI存储

2.1 测试配景: 该测试在物理服务器上进行,采用了 Tier 0 存储技能。此配置通过对比传统配置(2a)和 Tier 0 配置(2b),验证了其在性能上的优势。
2.2 传统配置(2a)


  • 系统架构:采用典型的 Hyperscale NAS 配置,包罗两个冗余的 Anvil 元数据服务器(自动 / 被动配置)、四个 Linux 存储服务器(LSS)和两个客户端。Anvil 服务器负责元数据操作和集群协调,LSS 利用内部 ScaleFlux CSD5000 盘算存储 NVMe 驱动器提供测试数据。
  • 硬件详情:Anvil 元数据服务器和客户端 / LSS 均采用 SuperMicro SYS - 121C - TN10R 机箱,Intel Xeon Gold 6542Y CPU,Micron 内存、启动驱动器和 NIC,ScaleFlux CSD5000 存储。网络交换机为 SuperMicro SSE - T8032S。
  • 软件详情:Anvil 节点运行 Hammerspace v5.1,LSS 运行 Rocky Linux v9.4,客户端运行 Rocky Linux v9.4 并添加一个上游内核补丁。利用修改后的 MLPerf 基准测试代码,绕过客户端页面缓存。




2.3 Tier 0 配置(2b)


  • 系统架构:展示 Tier 0 性能,包罗两个冗余 Anvil 元数据服务器,客户端兼具运行基准测试代码和提供测试数据的功能,其内部 ScaleFlux CSD5000 存储通过 NFSv3 导出并利用 pNFSv4.2 挂载,利用 Tier 0 NFS 协议旁路实现数据当地直接访问,提升吞吐量并低落延迟。
  • 硬件和软件详情:与配置 2a 基本相同。
  • Tier 0 架构下 ScaleFlux SSD:AI存储的焦点驱动引擎

    • 在当地的Tier 0配置下,ScaleFlux SSD作为NVMe存储,转化为全局文件系统的一部分,显著进步了吞吐量,并大幅增加了GPU数量,减少了对外部存储的依靠。
    • ScaleFlux SSD在多个客户端配置下保持线性扩展性,进一步提升了GPU集群的团体性能。
    • 在当地测试中,借助 Tier 0 技能,将服务器内原本作为 NVMe 存储的 ScaleFlux SSD 纳入全局共享存储体系,减少了对外部高性能存储的需求,从而节省了网络带宽、电力和冷却等开支。 





2.4 测试结果:


  • 在 3D-Unet 测试中,Tier 0 配置支持的 GPU 数量增加了 32%,吞吐量进步了 28%。
  • 在 单客户端(1U 空间) 配置下,支持 33 个模拟 H100 GPU,吞吐量达 91.8GB/
  • 在 三客户端(3U 空间) 配置下,支持 99 个模拟 H100 GPU,吞吐量达 275.5GB/s。

下载完整陈诉:Hammerspace MLperf Storage v1.0 Benchmark Results 

免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

x
回复

使用道具 举报

0 个回复

倒序浏览

快速回复

您需要登录后才可以回帖 登录 or 立即注册

本版积分规则

悠扬随风

论坛元老
这个人很懒什么都没写!
快速回复 返回顶部 返回列表