ScaleFlux CSD5000赋能AI练习存储架构（附测试陈诉）

悠扬随风 · 3 天前

在天生式人工智能（Generative AI）及大型语言模型（LLMs）迅猛发展的形势下，AI 对底层存储架构的需求愈发紧急。英伟达 2024 年调查表现，49% 的客户筹划当地与云端同步摆设 AI 项目，这使得高性能存储在跨情况摆设中的关键地位愈发凸显。然而，传统 HPC 并行文件系统和扩展 NAS 在性能、成本及管理方面面临诸多难题。
MLPerf Storage 基准测试是衡量存储系统在机器学习工作负载下性能的关键指标。Hammerspace 发布的 MLPerf® Storage v1.0 测试陈诉有力地彰显了其存储系统于高性能盘算存储领域的优势。
相比Dell PowerScale等扩展NAS架构，Hammerspace通过利用尺度以太网，减少50%的服务器和网络端口，避免了专用网络和客户端软件的需求，大幅低落了成本和功耗，在跨当地与云端情况摆设中发挥了重要作用，特别是在支持大规模AI练习任务（如Meta的Llama模型）时，展现了其强大的适应性与性能。
陈诉中的测试详情主要包罗两种配置：

1.公有云超大规模 NAS 配置：云端性能无缝对接

1.1 测试配景： 该测试在 AWS 的公有云基础设施上进行，模拟了一个超大规模 NAS 存储情况。该配置包罗 2 个 Anvil 元数据服务器和最多 22 个 Linux 存储服务器节点，并通过 200GbE 或 100GbE 网络连接，利用 pNFSv4.2 协议挂载。
1.2 测试结果：

在 ResNet-50 测试中，22 个 Linux 存储服务器驱动了 370 个模拟 A100 GPU 和 130 个模拟 H100 GPU，实现了 33.7GB/s 和 23.3GB/s 的聚合读性能。
在 3D-Unet 测试中，系统驱动了 35 个模拟 A100 GPU 和 10 个模拟 H100 GPU，分别实现了 50.3GB/s 和 23.7GB/s 的吞吐量。

2. 带 Tier 0 的超大规模 NAS 配置：ScaleFlux CSD5000赋能AI存储

2.1 测试配景： 该测试在物理服务器上进行，采用了 Tier 0 存储技能。此配置通过对比传统配置(2a)和 Tier 0 配置(2b)，验证了其在性能上的优势。
2.2 传统配置(2a)

系统架构：采用典型的 Hyperscale NAS 配置，包罗两个冗余的 Anvil 元数据服务器（自动 / 被动配置）、四个 Linux 存储服务器（LSS）和两个客户端。Anvil 服务器负责元数据操作和集群协调，LSS 利用内部 ScaleFlux CSD5000 盘算存储 NVMe 驱动器提供测试数据。
硬件详情：Anvil 元数据服务器和客户端 / LSS 均采用 SuperMicro SYS - 121C - TN10R 机箱，Intel Xeon Gold 6542Y CPU，Micron 内存、启动驱动器和 NIC，ScaleFlux CSD5000 存储。网络交换机为 SuperMicro SSE - T8032S。
软件详情：Anvil 节点运行 Hammerspace v5.1，LSS 运行 Rocky Linux v9.4，客户端运行 Rocky Linux v9.4 并添加一个上游内核补丁。利用修改后的 MLPerf 基准测试代码，绕过客户端页面缓存。

2.3 Tier 0 配置(2b)

系统架构：展示 Tier 0 性能，包罗两个冗余 Anvil 元数据服务器，客户端兼具运行基准测试代码和提供测试数据的功能，其内部 ScaleFlux CSD5000 存储通过 NFSv3 导出并利用 pNFSv4.2 挂载，利用 Tier 0 NFS 协议旁路实现数据当地直接访问，提升吞吐量并低落延迟。
硬件和软件详情：与配置 2a 基本相同。
Tier 0 架构下 ScaleFlux SSD：AI存储的焦点驱动引擎
- 在当地的Tier 0配置下，ScaleFlux SSD作为NVMe存储，转化为全局文件系统的一部分，显著进步了吞吐量，并大幅增加了GPU数量，减少了对外部存储的依靠。
- ScaleFlux SSD在多个客户端配置下保持线性扩展性，进一步提升了GPU集群的团体性能。
- 在当地测试中，借助 Tier 0 技能，将服务器内原本作为 NVMe 存储的 ScaleFlux SSD 纳入全局共享存储体系，减少了对外部高性能存储的需求，从而节省了网络带宽、电力和冷却等开支。

2.4 测试结果：

在 3D-Unet 测试中，Tier 0 配置支持的 GPU 数量增加了 32%，吞吐量进步了 28%。
在单客户端（1U 空间）配置下，支持 33 个模拟 H100 GPU，吞吐量达 91.8GB/
在三客户端（3U 空间）配置下，支持 99 个模拟 H100 GPU，吞吐量达 275.5GB/s。

下载完整陈诉：Hammerspace MLperf Storage v1.0 Benchmark Results

免责声明：如果侵犯了您的权益，请联系站长，我们会及时删除侵权内容，谢谢合作！更多信息从访问主页：qidao123.com:ToB企服之家，中国第一个企服评测及商务社交产业平台。

		自动登录	找回密码
密码			立即注册

ScaleFlux CSD5000赋能AI练习存储架构（附测试陈诉）

本帖子中包含更多资源

0 个回复

快速回复

楼主热帖

标签云

浏览过的版块