ToB企服应用市场:ToB评测及商务社交产业平台

标题: MinIO DataPod:百亿亿次级计算的参考架构 [打印本页]

作者: 我可以不吃啊    时间: 2024-10-7 16:10
标题: MinIO DataPod:百亿亿次级计算的参考架构
    当代企业通过其数据来定义本身。这必要用于 AI/ML 的数据基础设施,以及作为当代数据湖基础的数据基础设施,该数据基础设施可以或许支持商业智能、数据分析和数据科学。如果他们落后、起步或利用 AI 获得高级见解,则环境确实如此。在可预见的将来,这将是人们看待企业的方式。人工智能如何在企业中进入市场的更大问题有多个维度或阶段。此中包罗数据引入、转换、训练、推理、生产和存档,并在每个阶段共享数据。随着这些工作负载的扩展,底层 AI 数据基础设施的复杂性也会增长。这就产生了对高性能基础设施的需求,同时最大限度地降低了总拥有成本 (TCO)。
  MinIO 为数据基础设施创建了全面的蓝图,以支持百万亿亿次级 AI 和其他大规模数据湖工作负载。它被称为 MinIO DataPod。它利用的度量单元是 100 PiB。为什么?由于现真相况是,这在当今企业中很常见。以下是一些简朴的示例:
  
  纵然它们本日没有达到 100 PB,它们也将在几个季度内。公司的平均年增长率为42%,以数据为中央的公司的增长速度是这个数字的两倍,甚至更多。MinIO Datapod 参考架构可以以差别的方式堆叠,以实现几乎任何规模 - 究竟上,我们的客户已经基于此蓝图构建 - 一直超过 EB 并与多个硬件供应商合作。MinIO DataPod 提供端到端架构,使基础设施管理员可以或许为各种 AI 和 ML 工作负载摆设经济高效的解决方案。以下是我们架构的根本原理。
  AI 必要分解的存储和计算

  AI 工作负载,尤其是天生式 AI,本质上必要 GPU 进行计算。它们是出色的装备,具有令人难以置信的吞吐量、内存带宽和并行处置处罚本事。要跟上越来越快的 GPU 的步调,就必要高速存储。当训练数据无法放入内存中并且训练循环必须对存储进行更多调用时,尤其如此。此外,企业必要的不但仅是性能,还必要安全性、复制和弹性。
  企业存储需求要求架构将存储与计算完全分离。这使得存储可以独立于计算进行扩展,并且鉴于存储增长通常比计算增长高一个或多个数量级,这种方法通过杰出的容量利用率确保了最佳经济性。
  AI 工作负载必要差别范例的网络

  网络基础设施已将 100 Gbps 带宽链路标准化,用于 AI 工作负载摆设。当代 NVMe 驱动器平均提供 7GBps 的吞吐量,这使得存储服务器和 GPU 计算服务器之间的网络带宽成为 AI 管道执行性能的瓶颈。利用 Infiniband (IB) 等复杂的网络解决方案来解决这个问题确实有局限性。我们建议企业利用现有的基于行业标准以太网的解决方案(例如,基于 TCP 的 HTTP),这些解决方案开箱即用,以高吞吐量为 GPU 提供数据,原因如下:
  
  AI的需求要求:对象存储

  公有云中的AI数据基础设施都建立在对象存储之上,这并非巧合。每个主要的基础模型都是在对象存储上训练的,这也不是巧合。这是由于POSIX太健谈了,无法在AI所需的数据规模上工作--尽管遗留文件者会声称这一点。在公共云中提供 AI 的雷同架构应该应用于私有云,显然也应该应用于混合云。对象存储擅长处置处罚各种数据格式和大量非布局化数据,并且可以毫不费力地扩展以顺应不停增长的数据,而不会影响性能。其扁平命名空间和元数据功能可实现高效的数据管理和处置处罚,这对于必要快速访问大型数据集的 AI 使命至关紧张。随着高速 GPU 的发展和网络带宽在 200/400/800 Gbps 及以上的标准化,当代对象存储将成为满足 AI 工作负载性能 SLA 和规模的唯一解决方案。
  软件定义齐备

  我们知道 GPU 是展会的明星,它们是硬件。但纵然是 Nvidia 也会告诉你,秘诀是 CUDA。然而,走出芯片,基础设施天下越来越由软件定义。这一点莫过于存储。软件定义的存储解决方案对于可扩展性、机动性和云集成至关紧张,它超越了传统的基于装备的模型,原因如下:
  
  在 EB 级规模上,简朴性和基于云的运营模式至关紧张。作为一种软件定义的解决方案,对象存储应该在商用现成 (COTS) 硬件和任何计算平台上无缝运行,无论是裸机、捏造机照旧容器。用于对象存储的定制硬件装备通常通过昂贵的硬件和复杂的解决方案来补充设计不佳的软件,从而导致高昂的总拥有成本 (TCO)。
  面向 AI 的 MinIO DataPOD 硬件规格:

  利用 MinIO 进行 AI 操持的企业客户将 EB 级数据基础设施构建为 100PiB 的可重复单元。这有助于基础设施管理员简化摆设、维护和扩展过程,由于 AI 数据在一段时间内呈指数级增长。以下是用于构建 100PiB 规模数据基础设施的物料清单 (BOM)。
  集群规格

     
      
[/table]    元件 数量 机架总数 30 存储服务器总数 330 每个机架的存储服务器总数 11 TOR 互换机总数 60 主干开关总数 10 纠删码条带大小 10 纠删码奇偶校验 4 单机架规格
   
   
  元件 描述 数量 机架式机柜 42U/45U 插槽机架 1 存储服务器 2U 外形尺寸 11 架顶式互换机 二层互换机 2 管理互换机 组合第 2 层和第 3 层 1 网络线 AOC电缆 30-40 权力 带RPDU的双电源 17kW - 20kW 存储服务器规格
   
  元件 规范 服务器 2U,单插槽 CPU 64核,128*PCIe 4.0通道 Memory 256 GB 网络 NIC 双端口,200GbE NIC 驱动器托架 24 热插拔 2.5 英寸 U.2 NVMe 驱动器 30TB * 24 NVMe 硬盘 权力 1600W 冗余电源 总原始容量 720 TB 存储服务器参考
   
  Dell HPE Supermicro Supermicro
PowerEdge R7615机架式服务器 HPE ProLiant DL345 Gen11 A+ 服务器 2114S-WN24RT 网络互换机规格
   
  元件 规范 架顶式 (TOR) 互换机 32 * 100GbE QSFP 28端口 Spine Switch 64 * 100GbE QSFP 28端口 电缆 100G QSFP 28 AOC 权力 每个开关 500 瓦   
  价格
MinIO 已与多个客户验证了此架构,并希望其他人看到以下每月每 TB 的平均价格。这是平均的街头价格,实际价格大概因设置和硬件供应商关系而异。
   [table]
  规模 存储硬件价格(每 TB/月) MinIO软件价格(每 TB/月) 100PiB $1.50 $3.54 针对 AI 的特定于供应商的交钥匙硬件装备将导致高 TCO,并且从单元经济角度来看,对于 EB 级的大数据 AI 操持来说,它无法扩展。
结论

在满足所有 AI/ML 工作负载的 TCO 目标的同时,EB 级规模的数据基础设施设置大概很复杂且难以正确实现。MinIO 的 DataPOD 基础设施蓝图使基础设施管理员可以或许简朴明了地设置所需的商品现成硬件,这些硬件具有高度可扩展性、高性能、成本效益高的 S3 兼容 MinIO 企业对象存储,从而缩短了整体上市时间,并加快了企业环境中跨构造的 AI 操持的价值实现时间。

免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。




欢迎光临 ToB企服应用市场:ToB评测及商务社交产业平台 (https://dis.qidao123.com/) Powered by Discuz! X3.4