MinIO DataPod:百亿亿次级计算的参考架构

打印 上一主题 下一主题

主题 866|帖子 866|积分 2598

    当代企业通过其数据来定义本身。这必要用于 AI/ML 的数据基础设施,以及作为当代数据湖基础的数据基础设施,该数据基础设施可以或许支持商业智能、数据分析和数据科学。如果他们落后、起步或利用 AI 获得高级见解,则环境确实如此。在可预见的将来,这将是人们看待企业的方式。人工智能如何在企业中进入市场的更大问题有多个维度或阶段。此中包罗数据引入、转换、训练、推理、生产和存档,并在每个阶段共享数据。随着这些工作负载的扩展,底层 AI 数据基础设施的复杂性也会增长。这就产生了对高性能基础设施的需求,同时最大限度地降低了总拥有成本 (TCO)。
  MinIO 为数据基础设施创建了全面的蓝图,以支持百万亿亿次级 AI 和其他大规模数据湖工作负载。它被称为 MinIO DataPod。它利用的度量单元是 100 PiB。为什么?由于现真相况是,这在当今企业中很常见。以下是一些简朴的示例:
  

  •          一家北美汽车制造商,拥有近 EB 的汽车视频
  •          一家德国汽车制造商,拥有超过 50 PB 的汽车遥测数据
  •          一家生物技术公司,拥有超过 50 PB 的生物、化学和以患者为中央的数据
  •          一家拥有超过 500 PB 日志文件的网络安全公司
  •          一家视频容量超过 200 PB 的媒体流媒体公司
  •          一家国防承包商,拥有超过 80 PB 的飞机地理空间、日志和遥测数据
  纵然它们本日没有达到 100 PB,它们也将在几个季度内。公司的平均年增长率为42%,以数据为中央的公司的增长速度是这个数字的两倍,甚至更多。MinIO Datapod 参考架构可以以差别的方式堆叠,以实现几乎任何规模 - 究竟上,我们的客户已经基于此蓝图构建 - 一直超过 EB 并与多个硬件供应商合作。MinIO DataPod 提供端到端架构,使基础设施管理员可以或许为各种 AI 和 ML 工作负载摆设经济高效的解决方案。以下是我们架构的根本原理。
  AI 必要分解的存储和计算

  AI 工作负载,尤其是天生式 AI,本质上必要 GPU 进行计算。它们是出色的装备,具有令人难以置信的吞吐量、内存带宽和并行处置处罚本事。要跟上越来越快的 GPU 的步调,就必要高速存储。当训练数据无法放入内存中并且训练循环必须对存储进行更多调用时,尤其如此。此外,企业必要的不但仅是性能,还必要安全性、复制和弹性。
  企业存储需求要求架构将存储与计算完全分离。这使得存储可以独立于计算进行扩展,并且鉴于存储增长通常比计算增长高一个或多个数量级,这种方法通过杰出的容量利用率确保了最佳经济性。
  AI 工作负载必要差别范例的网络

  网络基础设施已将 100 Gbps 带宽链路标准化,用于 AI 工作负载摆设。当代 NVMe 驱动器平均提供 7GBps 的吞吐量,这使得存储服务器和 GPU 计算服务器之间的网络带宽成为 AI 管道执行性能的瓶颈。利用 Infiniband (IB) 等复杂的网络解决方案来解决这个问题确实有局限性。我们建议企业利用现有的基于行业标准以太网的解决方案(例如,基于 TCP 的 HTTP),这些解决方案开箱即用,以高吞吐量为 GPU 提供数据,原因如下:
  

  •          更大、更开放的生态系统
  •          降低网络基础设施成本
  •          高互连速度(800 GbE 及以上),支持以太网 RDMA(即:RoCEv2)
  •          在摆设、管理和观察以太网方面重用现有的专业知识和工具
  •          围绕 GPU 到存储服务器通信的创新正在基于以太网的解决方案上进行
  AI的需求要求:对象存储

  公有云中的AI数据基础设施都建立在对象存储之上,这并非巧合。每个主要的基础模型都是在对象存储上训练的,这也不是巧合。这是由于POSIX太健谈了,无法在AI所需的数据规模上工作--尽管遗留文件者会声称这一点。在公共云中提供 AI 的雷同架构应该应用于私有云,显然也应该应用于混合云。对象存储擅长处置处罚各种数据格式和大量非布局化数据,并且可以毫不费力地扩展以顺应不停增长的数据,而不会影响性能。其扁平命名空间和元数据功能可实现高效的数据管理和处置处罚,这对于必要快速访问大型数据集的 AI 使命至关紧张。随着高速 GPU 的发展和网络带宽在 200/400/800 Gbps 及以上的标准化,当代对象存储将成为满足 AI 工作负载性能 SLA 和规模的唯一解决方案。
  软件定义齐备

  我们知道 GPU 是展会的明星,它们是硬件。但纵然是 Nvidia 也会告诉你,秘诀是 CUDA。然而,走出芯片,基础设施天下越来越由软件定义。这一点莫过于存储。软件定义的存储解决方案对于可扩展性、机动性和云集成至关紧张,它超越了传统的基于装备的模型,原因如下:
  

  •          云兼容性:软件定义的存储与云操纵保持同等,这与无法跨多个云运行的装备差别。
  •          容器化:装备无法容器化,失去云原生优势,阻碍Kubernetes编排。
  •          硬件机动性:软件定义存储支持从边缘到焦点的各种硬件,可顺应各种 IT 环境。
  •          自顺应性能:软件定义存储提供无与伦比的机动性,可有用管理各种芯片组的差别容量和性能需求。
  在 EB 级规模上,简朴性和基于云的运营模式至关紧张。作为一种软件定义的解决方案,对象存储应该在商用现成 (COTS) 硬件和任何计算平台上无缝运行,无论是裸机、捏造机照旧容器。用于对象存储的定制硬件装备通常通过昂贵的硬件和复杂的解决方案来补充设计不佳的软件,从而导致高昂的总拥有成本 (TCO)。
  面向 AI 的 MinIO DataPOD 硬件规格:

  利用 MinIO 进行 AI 操持的企业客户将 EB 级数据基础设施构建为 100PiB 的可重复单元。这有助于基础设施管理员简化摆设、维护和扩展过程,由于 AI 数据在一段时间内呈指数级增长。以下是用于构建 100PiB 规模数据基础设施的物料清单 (BOM)。
  集群规格

     
      
[/table]    元件 数量 机架总数 30 存储服务器总数 330 每个机架的存储服务器总数 11 TOR 互换机总数 60 主干开关总数 10 纠删码条带大小 10 纠删码奇偶校验 4 单机架规格
   
   
  元件 描述 数量 机架式机柜 42U/45U 插槽机架 1 存储服务器 2U 外形尺寸 11 架顶式互换机 二层互换机 2 管理互换机 组合第 2 层和第 3 层 1 网络线 AOC电缆 30-40 权力 带RPDU的双电源 17kW - 20kW 存储服务器规格
   
  元件 规范 服务器 2U,单插槽 CPU 64核,128*PCIe 4.0通道 Memory 256 GB 网络 NIC 双端口,200GbE NIC 驱动器托架 24 热插拔 2.5 英寸 U.2 NVMe 驱动器 30TB * 24 NVMe 硬盘 权力 1600W 冗余电源 总原始容量 720 TB 存储服务器参考
   
  Dell HPE Supermicro Supermicro
PowerEdge R7615机架式服务器 HPE ProLiant DL345 Gen11 A+ 服务器 2114S-WN24RT 网络互换机规格
   
  元件 规范 架顶式 (TOR) 互换机 32 * 100GbE QSFP 28端口 Spine Switch 64 * 100GbE QSFP 28端口 电缆 100G QSFP 28 AOC 权力 每个开关 500 瓦   
  价格
MinIO 已与多个客户验证了此架构,并希望其他人看到以下每月每 TB 的平均价格。这是平均的街头价格,实际价格大概因设置和硬件供应商关系而异。
   [table]
  规模 存储硬件价格(每 TB/月) MinIO软件价格(每 TB/月) 100PiB $1.50 $3.54 针对 AI 的特定于供应商的交钥匙硬件装备将导致高 TCO,并且从单元经济角度来看,对于 EB 级的大数据 AI 操持来说,它无法扩展。
结论

在满足所有 AI/ML 工作负载的 TCO 目标的同时,EB 级规模的数据基础设施设置大概很复杂且难以正确实现。MinIO 的 DataPOD 基础设施蓝图使基础设施管理员可以或许简朴明了地设置所需的商品现成硬件,这些硬件具有高度可扩展性、高性能、成本效益高的 S3 兼容 MinIO 企业对象存储,从而缩短了整体上市时间,并加快了企业环境中跨构造的 AI 操持的价值实现时间。

免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

x
回复

使用道具 举报

0 个回复

倒序浏览

快速回复

您需要登录后才可以回帖 登录 or 立即注册

本版积分规则

我可以不吃啊

金牌会员
这个人很懒什么都没写!

标签云

快速回复 返回顶部 返回列表