最近遇到这样的一个问题。
有一台T640服务器莫名其妙的重启,重启之后又正常工作了。但隔一段时间,又重启,不胜烦恼。然后,决定看看到底怎么了。
现场情况(1台T640 双C/有内存/5块硬盘/H750阵列卡 RAID5/双电源 /系统为:centos 7.9, 之前是装centos 7.8操作系统,跑过近1年的时间)
一般遇到正常运行了一段时间的服务器自动重启(服务器前后各种指示灯都正常),我们会想到什么,1.是不是中毒了(启动文件被破坏了),重新装一下系统吧。2.重新插拔一下内存,然后断电30秒处理(关机,拔电源,长按开机键30S),再看以后是否正常。通常这两个办法能解决大部分的问题。这次,我们遇到的问题,却有所不同。
首先,我们观察服务器的前后灯,都是正常。因为机器重启过程,是在没有人的时候发生,等人到现场,机器已经重启完。重装操作系统运行几天后,我们发现一个新的问题,机器再次重启,并出现这样的界面
找不到控制器。
然后,我们通过远程控制,进入idrac卡,查看日志。RAID控制器,识别正常。且硬盘正常工作。也没有其它关于硬件报错的日志。
同时,联系厂家报修。并提供日志。
当时我们得到的厂家售后反馈是控制器在硬件层面,能识别,硬件没有问题。但重启时,系统卡在图1,就不动了。我们后来对固件(BIOS,IDRAC)进行升级。并重新安装了操作系统centos 7.9,装完后,可以正常进入操作系统了。结果一晚上后,又重启并卡在进入系统之前。(升级固件后,一个好玩的现象,新日志里有了新的关于硬件方面的报错信息 如图)
事情回到原点。硬盘坏了吗?没有,硬盘灯正常。服务器有其它灯不正常吗,也没有。经我方自己分析,还是控制器上的问题。因此,又再次报修,要求更换RAID控制器。更换后,系统立马重新上线了。并且直接进入操作系统,而不是卡在系统某个界面(图1)。
对于用远程控制IDRAC收集日志,这是很简单的事情。重点在于,如果不开机箱,我们从日志中来了解到底硬件哪个配件有问题,从而解决问题。
提醒一下:14代服务器如果带着H750阵列卡,如果安装centos 7.9以下的版本的系统,可能需要带有H750阵列卡驱动的操作系统才能顺利安装。而centos 7.9以上版本,则不需要。