米兰(中国)AC米兰

当前位置 > 米兰(中国)AC米兰 > 服务 > 服务器 > KunTai R622内存故障问题分析

KunTai R622内存故障问题分析

发布时间:2025-12-29

一、现网描述

1.1 环境描述

设备型号:KunTai R622

 

二、故障描述

2.1故障现象

服务器ibmc 出现告警事件,DIMM060槽位内存发生不可纠正错误

image.png

三、问题分析

3.1排查思路

1.Sel日志中时间点为2023-11-07 15:05:35 DIMM060上报UCE记录

image.png

2.Fdm日志中记录到对应时间点DIMM060大量UEO(潜伏错误或可重启错误)告警

image.png

常见内存故障类型分为可纠正错误(CE)、不可以纠正错误(UCE)、延迟的错误(DE)

Corrected error:可纠正错误(CE),该错误被检测到并且被纠正,不影响系统运行,比如内存DDR单bit错误,可以顺利获得ECC纠正。

Deferred error:延迟的错误(DE),没有被沉默(silently)传播,可能是系统潜在的错误。比如内存控制器写数据到内存条,发现要写的数据存在不可纠正错误,它会将该错误数据写到内存,并打上poison标记,则为deferred错误。

Uncorrected error:不可纠正错误(UE),该错误被检测到且未被纠正或延迟,它又可划分为下面几个子类:潜伏错误或可重启错误(UEO)、带标记错误或可恢复错误(UER)、不可恢复错误(UEU)、不可抑制错误(UC)。

3.fdm_output日志中记录DIMM060内存由于频繁UCE导致的PFAE事件,下一时间点有多次UCE产生,如下图:

image.png

四、问题解决

4.1解决办法

DIMM060内存硬件产生UEO(潜伏错误或可重启错误),该内存故障告警可顺利获得重启服务器恢复。但DIMM060内存PFA错误计数超门限,建议更换内存,避免后续出现设备异常重启或停止响应的故障风险。

4.2 解决方案

"DIMM060 triggered an uncorrectable error, (SN:857E325E).","2023-11-07 15:05:35","Asserted","0x01000017" 告警事件常用处理步骤如下:

1.下电后检查该部件与其插槽是否存在损坏或接触不良现象。

是 => 2

否 => 3

2.重新连接该部件,检查告警是否清除。

是 => 处理完毕

否 => 3

3.更换产生告警的内存,检查告警是否清除。

 

400-810-9119
7×24 小时全天候专业支持,覆盖计算产品问题受理、售后故障排查等全场景需求,极速响应并高效解决问题,为您的业务稳定运行给予坚实保障。
专业解答计算产品售后技术问题与产品资料传递,支持维保、巡检等服务信息精准查询,高效响应您的需求。
官方微信
  • 米兰(中国)AC米兰

微信搜索【米兰(中国)AC米兰】公众号,点击对话窗口发送信息,和米兰(中国)AC米兰进行沟通,解决您随时想到的任何咨询。