存储/服务器内存的基本概念简介

打印 上一主题 下一主题

主题 1941|帖子 1941|积分 5823

为什么写这个文章?今天处理惩罚一个powerstore 3000T 控制器,控制器上电后,亮一下灯就很快熄灭了,然后embedded module上和io module不加电,过一整子系统自动就下电了,串口没有任何输出。刚开始判定是主板的题目,对CPU做了各种的测试,发现没有用果。转而对内存条做了更换测试,马上就有了输出,然后再看SEL的log,内里有很多的关于内存的报错信息。这些内存log给客户看不懂,看不懂的原因就是很多基本概念没有,所以就有了这篇文章。
在存储大概服务器系统中,内存故障可以导致整个存储控制器挂掉大概服务器宕机,要更好的诊断内存故障,就必须相识内存的一些基本概念,如许看日志log的时候可以更加准确的判定内存故障。理解内存的物理和逻辑组织布局,如 Socket、Channel、DIMM、Rank、Bank 等,是系统故障诊断的根本。本文将简要介绍存储系统大概服务器内存的主要构成层级及其功能作用。
Socket
Socket 是主板上安装物理 CPU(处理惩罚器)的接口。服务器可能有一个或多个 Socket,如常见的单路(1 Socket)或双路(2 Socket)系统。双路CPU是目前市场上最多的服务器,对于存储系统也是最多的一种配置。很少见到有4颗CPU的存储控制器。对了,socket怎么翻译,不是很清楚,直接硬翻译就是“插座”。
每个 Socket 上的 CPU 通常集成一个或多个内存控制器(Memory Controller),负责直接控制和访问其所毗连的内存。
socket简单理解就是CPU的个数,双路服务器就是2个CPU,就有2个socket(Socket 0 和 Socket 1),每个 CPU 控制一部门内存资源。
Channel(通道)
Channel 是 CPU 内部内存控制器(memory controller)与 DIMM 插槽之间的独立传输通道。


  • 每个 CPU 通常有 2~8 个 Channel;
  • 通道越多,内存带宽越高;
  • 多通道配置(如双通道、六通道)可显著进步内存并行访问服从。
比方,Intel Xeon Scalable 第三代支持每 CPU 最多 8 通道 DDR4/DDR5。
DIMM(内存条)
DIMM(Dual Inline Memory Module) 是插在主板上 Channel 接口中的物理内存模块,是存储控制器大概服务器主板上可更换的内存单元(FRU)。
每个 Channel 通常支持 1~2 根 DIMM,分别称为:


  • 1DPC(1 DIMM per Channel):每通道一根内存
  • 2DPC(2 DIMM per Channel):每通道两根内存
DIMM 的规格包括容量(如 16GB/32GB)、类型(如 RDIMM、LRDIMM)、频率(如 3200 MT/s)等,这个大家都很熟悉,就不逐一介绍了。
Rank(列)
Rank 是 DIMM 上 DRAM 芯片的逻辑组织单位。这个概念是DIMM内存上的了,不是控制器大概服务器主板上的概念了。


  • 一个 Rank 是一组可以被内存控制器(memory controller)作为一个独立单元访问的 DRAM 芯片;
  • 一个 DIMM 可以包含多个 Rank:

    • Single-Rank(SR)
    • Dual-Rank(DR)
    • Quad-Rank(QR)

Rank 越多,DIMM 容量越大,但对控制器的电气负载也越高,会影响最大频率或稳固性。
Bank
Bank 是 DRAM 芯片内部的并行访问子单元。每个 DRAM 芯片内部通常包含 8、16 或更多 Bank。


  • Bank 是最小的并行存储访问单元;
  • 多个 Bank 使得内存可以交错访问,进步服从;
  • Bank 通过 Bank Group 进一步组织以支持更高的带宽(如 DDR4/DDR5)。
常见其他术语
   
名称
含义
SPD (Serial Presence Detect)
存储在 DIMM 上的小型 EEPROM 芯片,记载内存参数(如容量、频率、电压)供 BIOS 读取
ECC (Error-Correcting Code)
用于检测和修复单比特内存错误的技能,是服务器内存的标准配置
MTR (Memory Technology Register)
CPU 内部配置内存拓扑的控制寄存器,描述 Rank、Bank 等属性
NUMA (Non-Uniform Memory Access)
多 CPU 系统中各自控制的内存访问速率不同,影响性能调度战略
  内存常见故障排查发起
   
现象
可能原因
发起操作
内存识别容量非常
DIMM 未插好;型号不兼容;BIOS限速
重新插拔;更新BIOS;确认兼容性
系统不启动或卡在 POST
DIMM 初始化失败;Rank disabled;时序不稳
测试最简配置(1条/CPU);交叉更换
出现 Correctable ECC 报警
内存出现轻微故障
查抄日志,连续观察是否增长
出现 Uncorrectable ECC 或系统瓦解
DIMM 或插槽硬件故障
立即更换 DIMM;查抄插槽
  Powerstore 3000T内存解读

上面这个图片是DELL EMC Powerstore 3000T的内存信息,可以从这个图片看出来,这是一个双路服务器,就是2个sockets,每个sockets有6个通道,就是6个channel,每个channel包含2个DIMM,实际物理的主板上就体现为一个白色和一个玄色的内存插槽。对于3000T由于系统只配置了12条32GB的内存(PN:100-532-602-00),所以内存都需要安装在每个channel的0上,对应到主板上,就是白色的插槽。有了这些基本的概念,看log就可以准确判定出来谁人DIMM出题目了,DIMM应该怎样插等题目了。
其实,要能阅读log,而且可以大概理解log中的含义,对于这些基本概念的相识好坏常关键的。可以大概阅读log,理解log,才能更好的分析判定诊断故障,而不是拍脑袋开脑洞去解决题目了。如果还有其他阅读log,大概故障分析判定上的题目,可以添加vx (StorageExpert)进一步的沟通。

免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

x
回复

使用道具 举报

0 个回复

正序浏览

快速回复

您需要登录后才可以回帖 登录 or 立即注册

本版积分规则

傲渊山岳

论坛元老
这个人很懒什么都没写!
快速回复 返回顶部 返回列表