我公司维护的客户在假日期间出现故障,受客户委托,我们前往数据中心查看。
客户是一台vmware esxi的服务器,物理服务为戴尔R710.服务器使用时间已经超过了7年,属于脱保状态。目前客户大部分系统已经迁移上云,但线下仍然还存在一定量的物理服务器。之前我们已经联系机房值班人员进行了重启,但是系统未正常运行,且当时因为客户单位运维人员及采购人员均不熟悉,也没有配置idrac,无法远程查看状态,因此只有现场解决。
进入现场后我们发现服务器琥珀灯闪烁,初步怀疑是硬件故障,屏幕显示报错如下:

根据我们工程师经验,可能问题出在硬件上,因此重启服务器查看是否有异常信息。重启过程中果然发现系统提示B2插槽的内存条检测失败,因此我们需要拆机检查一下。

按照运维习惯,先拍照留存线路记录,确保后续能快速恢复。

因为服务器一共有12根8GB的内存条,而双通道的内存只能偶数根,因此我们拔掉了A6和B6插槽上的服务器内存,并将其中一根插回B2.

最后恢复服务器,上架、插回网线,开机后正常。后续将与客户协商采购一根内存后即可。最后拍张数据中心照片留念。


