论坛
潜水/灌水快乐,沉淀知识,认识更多同行。
ToB圈子
加入IT圈,遇到更多同好之人。
朋友圈
看朋友圈动态,了解ToB世界。
ToB门户
了解全球最新的ToB事件
博客
Blog
排行榜
Ranklist
文库
业界最专业的IT文库,上传资料也可以赚钱
下载
分享
Share
导读
Guide
相册
Album
记录
Doing
应用中心
搜索
本版
文章
帖子
ToB圈子
用户
免费入驻
产品入驻
解决方案入驻
公司入驻
案例入驻
登录
·
注册
账号登录
立即注册
找回密码
用户名
Email
自动登录
找回密码
密码
登录
立即注册
首页
找靠谱产品
找解决方案
找靠谱公司
找案例
找对的人
专家智库
悬赏任务
圈子
SAAS
qidao123.com技术社区-IT企服评测·应用市场
»
论坛
›
软件与程序人生
›
云原生
›
ScaleFlux CSD5000赋能AI练习存储架构(附测试陈诉) ...
ScaleFlux CSD5000赋能AI练习存储架构(附测试陈诉)
悠扬随风
论坛元老
|
3 天前
|
显示全部楼层
|
阅读模式
楼主
主题
1876
|
帖子
1876
|
积分
5628
在天生式人工智能(Generative AI)及大型语言模型(LLMs)迅猛发展的形势下,AI 对底层存储架构的需求愈发紧急。英伟达 2024 年调查表现,49% 的客户筹划当地与云端同步摆设 AI 项目,这使得高性能存储在跨情况摆设中的关键地位愈发凸显。然而,传统 HPC 并行文件系统和扩展 NAS 在性能、成本及管理方面面临诸多难题。
MLPerf Storage 基准测试是衡量存储系统在机器学习工作负载下性能的关键指标。Hammerspace 发布的 MLPerf® Storage v1.0 测试陈诉有力地彰显了其存储系统于高性能盘算存储领域的优势。
相比Dell PowerScale等扩展NAS架构,Hammerspace通过利用尺度以太网,减少50%的服务器和网络端口,避免了专用网络和客户端软件的需求,大幅低落了成本和功耗,在跨当地与云端情况摆设中发挥了重要作用,特别是在支持大规模AI练习任务(如Meta的Llama模型)时,展现了其强大的适应性与性能。
陈诉中的测试详情主要包罗两种配置:
1.公有云超大规模 NAS 配置:云端性能无缝对接
1.1 测试配景:
该测试在 AWS 的公有云基础设施上进行,模拟了一个超大规模 NAS 存储情况。该配置包罗 2 个 Anvil 元数据服务器和最多 22 个 Linux 存储服务器节点,并通过 200GbE 或 100GbE 网络连接,利用 pNFSv4.2 协议挂载。
1.2 测试结果:
在 ResNet-50 测试中,22 个 Linux 存储服务器驱动了 370 个模拟 A100 GPU 和 130 个模拟 H100 GPU,实现了 33.7GB/s 和 23.3GB/s 的聚合读性能。
在 3D-Unet 测试中,系统驱动了 35 个模拟 A100 GPU 和 10 个模拟 H100 GPU,分别实现了 50.3GB/s 和 23.7GB/s 的吞吐量。
2. 带 Tier 0 的超大规模 NAS 配置:ScaleFlux CSD5000赋能AI存储
2.1 测试配景:
该测试在物理服务器上进行,采用了 Tier 0 存储技能。此配置通过对比传统配置(2a)和 Tier 0 配置(2b),验证了其在性能上的优势。
2.2 传统配置(2a)
系统架构:采用典型的 Hyperscale NAS 配置,包罗两个冗余的 Anvil 元数据服务器(自动 / 被动配置)、四个 Linux 存储服务器(LSS)和两个客户端。Anvil 服务器负责元数据操作和集群协调,LSS 利用内部 ScaleFlux CSD5000 盘算存储 NVMe 驱动器提供测试数据。
硬件详情:Anvil 元数据服务器和客户端 / LSS 均采用 SuperMicro SYS - 121C - TN10R 机箱,Intel Xeon Gold 6542Y CPU,Micron 内存、启动驱动器和 NIC,ScaleFlux CSD5000 存储。网络交换机为 SuperMicro SSE - T8032S。
软件详情:Anvil 节点运行 Hammerspace v5.1,LSS 运行 Rocky Linux v9.4,客户端运行 Rocky Linux v9.4 并添加一个上游内核补丁。利用修改后的 MLPerf 基准测试代码,绕过客户端页面缓存。
2.3 Tier 0 配置(2b)
系统架构:展示 Tier 0 性能,包罗两个冗余 Anvil 元数据服务器,客户端兼具运行基准测试代码和提供测试数据的功能,其内部 ScaleFlux CSD5000 存储通过 NFSv3 导出并利用 pNFSv4.2 挂载,利用 Tier 0 NFS 协议旁路实现数据当地直接访问,提升吞吐量并低落延迟。
硬件和软件详情:与配置 2a 基本相同。
Tier 0 架构下
ScaleFlux SSD:AI存储的焦点驱动引擎
在当地的Tier 0配置下,ScaleFlux SSD作为NVMe存储,转化为全局文件系统的一部分,显著进步了吞吐量,并大幅增加了GPU数量,减少了对外部存储的依靠。
ScaleFlux SSD在多个客户端配置下保持线性扩展性,进一步提升了GPU集群的团体性能。
在当地测试中,借助 Tier 0 技能,将服务器内原本作为 NVMe 存储的 ScaleFlux SSD 纳入全局共享存储体系,减少了对外部高性能存储的需求,从而节省了网络带宽、电力和冷却等开支。
2.4 测试结果:
在 3D-Unet 测试中,Tier 0 配置支持的 GPU 数量增加了 32%,吞吐量进步了 28%。
在 单客户端(1U 空间) 配置下,支持 33 个模拟 H100 GPU,吞吐量达 91.8GB/
在 三客户端(3U 空间) 配置下,支持 99 个模拟 H100 GPU,吞吐量达 275.5GB/s。
下载完整陈诉:Hammerspace MLperf Storage v1.0 Benchmark Results
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
本帖子中包含更多资源
您需要
登录
才可以下载或查看,没有账号?
立即注册
x
回复
使用道具
举报
0 个回复
倒序浏览
返回列表
快速回复
高级模式
B
Color
Image
Link
Quote
Code
Smilies
您需要登录后才可以回帖
登录
or
立即注册
本版积分规则
发表回复
回帖并转播
回帖后跳转到最后一页
发新帖
回复
悠扬随风
论坛元老
这个人很懒什么都没写!
楼主热帖
(8) PyQt 设计并实现【工厂扫码装箱系 ...
Java Long类parseLong()方法具有什么功 ...
王心凌再次爆火,为了防止收费,我连夜 ...
【Web前端】HTML详解(上篇)
IDEA: 如何导入项目模块 以及 将 Java ...
互联网官方协议标准(rfc5000) ...
命题逻辑等值演算
Oracle ORA-10917: TABLESPACE GROUP c ...
Uniapp进行APP打包——iOS 系统 ...
详解kubernetes五种暴露服务的方式 ...
标签云
渠道
国产数据库
集成商
AI
运维
CIO
存储
服务器
浏览过的版块
Java
快速回复
返回顶部
返回列表