该笔记主要记录一下如何排查指定服务器中的指定内存条是否损坏。

1.内存故障排查

因为 68 – 71 软SBC服务器都是Centos7系统,所以我们可以通过以下命令来排查内存是否出现损坏。

grep "[0-9]" /sys/devices/system/edac/mc/mc/csrow/ch*_ce_count

Centos 服务器系统内存故障排查

1> count不为0表示有错误
2> mc代表第几个cpu,
3> csrow内存通道,
4> ch第几个内存

EDAC即error detection and correction(错误检测与纠正),是Linux系统内部的机制。在上面的日志中,可以清楚地看出是内存读错误。MC即memory controller(内存控制器)。CE则代表correctable error,是ECC内存中可以纠正的错误,相对地还有UE(uncorrectable error)。为了摸清是哪些内存出了问题,找出所有内存的CE计数,由上图可知,第四块内存出现了故障。

通过 dmidecode -t memory 命令,可以查看每个DIMM

Centos 服务器系统内存故障排查

2.CPU排查 cat /sys/devices/system/cpu/cpu*/online

Centos 服务器系统内存故障排查

相关文章:

  • 2021-07-21
  • 2021-09-02
  • 2022-01-03
  • 2021-06-17
  • 2021-07-05
  • 2021-09-16
  • 2021-09-09
  • 2021-10-19
猜你喜欢
  • 2021-06-17
  • 2021-07-11
  • 2021-07-07
  • 2021-09-26
  • 2021-11-23
  • 2022-12-23
  • 2022-12-23
相关资源
相似解决方案