AI期间的服务器SSD管理困难

打印 上一主题 下一主题

主题 1019|帖子 1019|积分 3057

马上注册,结交更多好友,享用更多功能,让你轻松玩转社区。

您需要 登录 才可以下载或查看,没有账号?立即注册

x
当前,以ChatGPT为代表的AI应用全面爆发,云端算法向大模型多模态演进,服务器作为AI技能实现的重要底子办法,提供AI关键算力,其需求量随之快速增长。据IDC数据显示,2023年中国AI服务器市场规模到达91亿美元,预计到2028年,其市场规模将超过124亿美元。

AI技能的发展也推动了存储资源的不断升级。据IDC数据显示,2023年环球数据量为129ZB,预测2027年将到达291ZB,此中生成式AI将在将来五年内产生100ZB的数据。AI应用必要频仍处理大量数据,工作负载密集。传统机器硬盘(HDD)无法满意AI高性能、高可靠需求,固态硬盘(SSD)依附更高的读写速率、更低的耽误及故障率,成为AI应用的首选存储介质。
AI应用对服务器的可靠性、可维护性和易用性提出了更高的要求,这些要求通过服务器管理能力来承载。服务器由处理器、内存、硬盘三大件,及电源、风扇、网卡等其他部件构成。此中,三大件的管理尤为重要,重要包括:


  • 状态监控,如资源利用率、温度和性能等;
  • 故障检测,通过日常状态的监控、日志信息、蓝屏快照和录像回放等手段实现故障的发现、定位息争决;
  • 资源的回收分配,根据实际业务模型和资源需求实现智能分配与回收。
当前CPU管理重要依赖于BMC,内存管理相对简单,而硬盘管理复杂且措施较少;别的部件包括电源、风扇、网卡等管理则较为成熟。

现阶段服务器针对SSD以单盘管理为主,通过BMC或操纵体系管理工具实现,如Western Digital的Data Lifeguard、三星SSD Manager等。以上两种方式均存在题目,难以满意AI应用对快速响应和高效管理的需求:


  • 硬盘管理复杂,操纵必要具备一定的专业能力,数据易出错
  • 人工到场频仍,管理效率低,业务等待时间长
  • 监控手段有限,难以及时发现潜在题目和故障,导致错过维护窗口,从潜在风险酿成数据事故
  • 传统SMART寿命和故障预警偏差较大,硬盘故障检测和响应滞后,容易导致数据丢失和体系宕机,造成业务中断

 
以ChatGPT-3为例,其1750亿参数和数百TB练习数据依赖于大量服务器和SSD的支持。在练习过程中,数据集、模型检查点和中央结果都存储在SSD上。SSD故障大概导致以下题目:数据集不完备,影响模型的学习结果和准确性;关键模型检查点丢失,影响模型规复练习的性能;中央结果丢失导致重复练习,影响练习效率。多块SSD故障甚至大概引发体系瓦解,导致业务中断,造成经济丧失。
由此可见一款良好的SSD,不仅必要具备良好的性能,还必要场景化的管理能力:


  • 故障快速定位定界,加快业务修复,低落维护成本;
  • 全方位故障预测及故障自愈,清除潜在风险,包管业务连续性;
  • 精准寿命预测及失效预测,及时防备,提升体系结实性;
  • 智能调配资源,按需分配性能,低落TCO;
  • 交互界面友好,低落学习成本,提高管理效率。

    在AI迅速发展的背景下,传统的硬盘管理在可靠性、性能、能效和安全性等方面存在诸多短板,限定了企业的数据处理能力和存储效率。为应对这些挑战,必要引入先进的存储技能和管理手段,以满意不断增长的AI应用需求,更好地服务客户,持续创造价值。

关于云海芯科

四川云海芯科微电子科技有限公司是一家业界领先的数据存储解决方案提供商,团队核心成员深耕存储行业15+年,拥有成熟的存储产品研发上市经验。          
公司扎根国产存储,对峙产品和技能创新发展,拥有闪存管理、数据掩护、硬件设计等多项SSD关键技能专利,具备存储产品设计到开发的全流程交付能力,已推出NVMe和SATA接口的全系列SSD产品,在HPC/HPDA、云计算、数据中央、虚拟化、人工智能等领域广泛应用,为金融、交通、通讯、智能制造、互联网、能源等行业提供高稳固、高可靠的存储解决方案。


免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
回复

使用道具 举报

0 个回复

倒序浏览

快速回复

您需要登录后才可以回帖 登录 or 立即注册

本版积分规则

科技颠覆者

论坛元老
这个人很懒什么都没写!
快速回复 返回顶部 返回列表