在当今数字化时代,DRAM作为盘算机体系的核心组件,其可靠性和耐用性直接影响着整个体系的稳定运行和数据安全性。近年来,随着技能的飞速发展,DRAM不但在传统CPU内存领域占据主导地位,还在GPU集成的高带宽内存(HBM)以及移动和嵌入式装备中的低功耗DDR(LPDDR)等新兴应用中展现出日益重要的脚色。然而,随着DRAM技能的快速迭代和应用场景的多元化,如何正确预测并保障这些新型DRAM体系的可靠性,成为了亟待办理的关键题目。
扩展阅读:
- MCR DIMM如何办理内存带宽瓶颈?
- 数据中央内存RAS技能全景分析
- 数据中央:AI范式下的内存挑战与机遇
- 深度好文|如何实现服务器内存故障监控与预测?
- 大厂阿里、字节、腾讯都在关注这个事情!
以往,对于DRAM故障和错误的研究大多基于大规模现场数据,这些数据主要来源于配备有高度可靠的错误检查与纠正(ECC)功能的DDR DRAM模块。这些研究虽然为内存可靠性提供了名贵见解,帮助开发了各种容错机制,但它们有两个主要局限性:
- 一是现场研究本质上是回顾性的,难以直接预判将来技能趋势下不同容错策略的结果;
- 二是随着加快器使用和新接口的普及,大量内存资源正逐步转移到非传统CPU ECC模块的DRAM组件中,如HBM和LPDDR,而这些组件的配置和接口特性与DDR DRAM有所不同,带来了新的挑战。
鉴于此,2023年10月,Jeageun Jung和Mattan Erez在他们的研究中,提出了一项创新的办理方案,即基于组件级别的DRAM故障模子。这项研究首次深入分析了一个大规模公开的内存错误日志数据集,该数据集包含超过7000万条错误变乱记录,覆盖超过25万个节点和300万个DDR4 ECC DIMM,通过对这些数据的挖掘,研究职员能够追溯到DRAM内部组件条理上的根本故障原因。尽管数据集存在一定的局限性,如缺乏位或引脚级别的错误信息,以及包含一些物理上不太可能出现的错误模式,但研究团队通过过细的分析方法克服了这些停滞,确保了模子的正确性和可靠性。
通过构建一个基于该模子的模仿器,研究团队不但能够模仿出数据会合DDR4技能的故障和错误模式,而且首次实现了对当前和将来DRAM技能(如DDR5、HBM3和LPDDR5)的故障模仿。这一突破性希望使得研究者能够前瞻性地评估和优化内存体系的设计,包括评估不同纠错编码(ECC)机制、DRAM技能参数以及缩放导致的错误率变化对体系可靠性的影响。别的,研究还展现了不同供应商的HBM和LPDDR体系之间因故障范例分布差别而存在的明显可靠性差别,提示在设计时需考虑供应商特定的可靠性特性。
尤为重要的是,研究团队还发现,通过在HBM和LPDDR的ECC方案中融入地址信息,可以有效镌汰不可检测错误的发生率。这主要是因为这些内存通道通常每次访问只从单个芯片读取数据,与整个DDR rank不同。别的,他们展示了如何运用模子来优化内存体系的维护策略,如行和列的修复及地址退役机制,从而明显降低了预计的处理器模块更换频率,提高了内存体系设计的经济性和效率。
这项研究不但弥补了DRAM可靠性预测领域的空白,还为应对将来内存技能挑战提供了有力工具,特殊是针对那些正在迅速增长且在高性能盘算中扮演关键脚色的新型DRAM技能。通过开放源代码的模仿器和模子,研究团队鼓励更广泛的社区参加到进一步的探索和优化工作中,共同推动内存体系设计迈向更高水平的性能和可靠性。
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。 |