一、故障描述
某客户一台浪潮NF5270M3服务器宕机,全部虚拟机不可用。工程师到达现场后发现,服务器前面12块硬盘全亮红灯。重启服务器,进入RAID卡WEB BIOS查看得知,由12块硬盘组成的RAID5未配置热备盘,其中两块硬盘故障,分别为SLOT3,SLOT5;RAID组Virtual Drive:1已经变成OFFLINE状态。
图1 Virtual Drive:1 OFFLINE状态
二、故障排查
通过日志分析发现,slot3位置硬盘先出现故障时,Virtual Drive:1RAID组变成DEGRADED(降级)状态,不久,slot5位置硬盘也出现故障。两块盘的故障导致RAID OFFLINE。
图2 slot3硬盘故障
图3 Virtual Drive:1RAID DEGRADED
图4 slot5硬盘故障
图5 Virtual Drive:1RAID OFFLINE
三、故障处理
1、RAID组中两块硬盘故障,极大可能会导致数据丢失。经过与客户沟通,由于数据比较重要,决定先尝试进行修复操作。
2、分析日志,确认两块硬盘故障的先后顺序,slot3硬盘先于slot5硬盘出现故障。
3、对slot5硬盘进行强制拉起,拉起成功,RAID转变为DEGRADED状态。
4、启动服务器,检查数据完整性。
5、确认数据正常,暂不启动应用,进行数据备份。
6、备份完成后,更换slot3硬盘。
7、等待slot3硬盘同步完成后,对有隐患slot5硬盘也进行更换。
8、启动应用,测试业务,故障处理完成。
图6 强制拉起SLOT5硬盘后RIAD组状态
四、故障处理
1、服务器运行虚拟机应用时,读写频繁,硬盘压力大,故障率较高,短时间内出现多块硬盘故障,导致RAID OFFLINE、数据丢失风险大,一定要做好数据备份。
2、进行RAID规划时,建议配置热备盘,降低数据丢失风险。
3、处理多块硬盘故障时,务必仔细分析日志,操作时注意硬盘故障的先后顺序,避免造成不可恢复的故障。
4、在服务器上安装storcli软件,通过storcli命令定期收集RAID卡日志进行分析,如果某块硬盘不断出现“Unexpected sense”和“Media error”事件,不需硬盘告警灯指示,便可提前更换硬盘,防患于未然。此操作可大大降低多块硬盘同时出现故障的风险。
如欲了解更多,请登录安图特官方网站:www.antute.com.cn