Contact Us
Technical Guide
Your current position:Home > Technical Guide
【案例分享】浪潮NF5270M3 RAID OFFLINE故障处理报告



一、故障描述



某客户一台浪潮NF5270M3服务器宕机,全部虚拟机不可用。工程师到达现场后发现,服务器前面12块硬盘全亮红灯。重启服务器,进入RAID卡WEB BIOS查看得知,由12块硬盘组成的RAID5未配置热备盘,其中两块硬盘故障,分别为SLOT3,SLOT5;RAID组Virtual Drive:1已经变成OFFLINE状态。

image001.png

图1 Virtual Drive:1 OFFLINE状态



二、故障排查



通过日志分析发现,slot3位置硬盘先出现故障时,Virtual Drive:1RAID组变成DEGRADED(降级)状态,不久,slot5位置硬盘也出现故障。两块盘的故障导致RAID OFFLINE。

image002.png

图2 slot3硬盘故障



image003.png

图3 Virtual Drive:1RAID DEGRADED



image004.png

图4 slot5硬盘故障



image005.png

图5 Virtual Drive:1RAID OFFLINE



三、故障处理



1、RAID组中两块硬盘故障,极大可能会导致数据丢失。经过与客户沟通,由于数据比较重要,决定先尝试进行修复操作。

2、分析日志,确认两块硬盘故障的先后顺序,slot3硬盘先于slot5硬盘出现故障。

3、对slot5硬盘进行强制拉起,拉起成功,RAID转变为DEGRADED状态。

4、启动服务器,检查数据完整性。

5、确认数据正常,暂不启动应用,进行数据备份。

6、备份完成后,更换slot3硬盘。

7、等待slot3硬盘同步完成后,对有隐患slot5硬盘也进行更换。

8、启动应用,测试业务,故障处理完成。

image006.png

图6 强制拉起SLOT5硬盘后RIAD组状态



四、故障处理



1、服务器运行虚拟机应用时,读写频繁,硬盘压力大,故障率较高,短时间内出现多块硬盘故障,导致RAID OFFLINE、数据丢失风险大,一定要做好数据备份。

2、进行RAID规划时,建议配置热备盘,降低数据丢失风险。

3、处理多块硬盘故障时,务必仔细分析日志,操作时注意硬盘故障的先后顺序,避免造成不可恢复的故障。

4、在服务器上安装storcli软件,通过storcli命令定期收集RAID卡日志进行分析,如果某块硬盘不断出现“Unexpected sense”和“Media error”事件,不需硬盘告警灯指示,便可提前更换硬盘,防患于未然。此操作可大大降低多块硬盘同时出现故障的风险。


如欲了解更多,请登录安图特官方网站:www.antute.com.cn

版权所有 安图特(北京)科技有限公司 Filing No:京ICP备17074963号-1
Technical Support:Genesis Network