日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

NetApp FAS2554故障灯常亮case处理过程分享

發布時間:2024/1/18 编程问答 45 豆豆
生活随笔 收集整理的這篇文章主要介紹了 NetApp FAS2554故障灯常亮case处理过程分享 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

近期處理了一個NetApp FAS2554前面故障燈一直點亮的case,本文對于分析過程和最終的問題發現做一個分享,歡迎討論,可以add wechat at StorageExpert。

外觀檢查:

客戶反饋,一套FAS2554存儲,沒有任何擴展柜,前面板的故障燈近期一直是亮的,但沒有其他任何故障燈,核對檢查了控制器的故障燈,都是熄滅正常的。

客戶做過的嘗試:

某些所謂專業人員已經對這個存儲做了故障分析,結論是需要重啟控制器,然后控制器也重啟了,但是故障依舊存在。至于為什么要重啟控制器,就不知道了?;旧暇褪侵貑⒋蠓?。

下面是我們的分析過程:

1. 檢查兩個控制器的message文件

對兩個控制器近期的messages文件做了詳細的檢查,沒有發現任何和硬件有關的報錯。

2. 系統檢查

檢查了system health的情況,發現一個控制器是degraded

再仔細檢查,發現是SP的網絡沒有接,這個問題不大,不是導致整個控制器亮燈的原因。

?檢查fru 的LED故障燈情況,兩個控制器全都是off

檢查DIMM的ECC報錯,也正常。

檢查sensor和environment 情況,所有都正常

?

?檢查storage fault的情況,發現如下的異常點。

四個電源模塊的狀態都是OK,但是status描述有三個顯示 DC under VOLTAGE,這是不正常的。另外整個enclosure 的狀態顯示為FAIL。?

3. sp檢查

檢查sp的狀態,工作正常,但兩個控制器的版本有差異,一個是 2.2.3, 另外一個是 2.2.4。

初步分析結論

到此,我們可以初步得出結論,導致FAS2554系統控制器故障燈點亮的原因在于四個電源模塊的不正常的矛盾狀態,但什么原因導致出現四個電源模塊的status都顯示DC under voltage呢?初步判斷是2個sp的版本不同,低版本2.2.3的可能有bug,沒有準確的讀到電源的狀態信息。

行動計劃

基于上面的判斷,計劃如下:

1. 升級其中一個控制器的SP firmware版本到 2.2.4

2. 如果升級完成后,故障依然存在,就對有問題的電源模塊依次做插拔動作。

執行情況

按照上面的計劃,我們首先升級了SP的版本,但升級后我問題依舊,說明這個不是SP的bug導致。開始執行第二個計劃,對電源模塊做插拔動作,這個時候悲劇發生了,插拔了其中一個電源,30秒內又插了回去,但是系統console上馬上給出提示:

[FAS2554-02:monitor.fan.critical:EMERGENCY]: 2 fans have failed. Replace them to avoid overheating. If not corrected, system will shutdown in 2 minutes.

然后緊接著給出提示,multiple fan failed, system will shutdown immediately.?

兩個控制器都shudown了。

進一步處理和分析

由于系統自己shutdown了系統,ontap是不會做failover之類的,兩個控制器都關機了。通過插拔控制器讓兩個控制器重新啟動恢復業務。進一步分析問題,解決問題的思路開始轉移到bug方面。果然,找到了相關的一模一樣的bug說明。

845945 - Fault LED stays lit after DC under-voltage event

網站連接??NetApp Support Site

bug的具體說明:

After a DC under-voltage event, the storage shelf OPS panel fault LED?remains lit, and incorrect EMS messages continue to be generated, even?after the voltage returns to correct levels.

影響的版本:

8.0.2P4, 8.1.2, 8.1.3, 8.1.4P2, 8.1.4P4, 8.1.4P8, 8.2.1, 8.2.1P1, 8.2.1P2,?8.2.1P3, 8.2.2, 8.2.2P1, 8.2.2P2, 8.2.3, 8.2.3P1, 8.2.3P2, 8.2.3P3, 8.2.3P4,8.2.3P5, 8.2.3P6, 8.2P3, 8.2P5, 8.3, 8.3P1,? 8.3P2

客戶的版本非常完美的命中了這個bug。

當然,解決這個問題,最徹底的辦法就是升級ONTAP版本。如果不想升級,也有workaround的辦法,

Remove and reinsert the power supply unit (PSU) that experienced the?under-voltage event. To identify the PSU you need to operate on, use the?"storage show fault -v" command (available in the nodeshell for clustered?Data ONTAP) and look under the Power Supplies: Element Status section.?E.g. Power Supplies: Element Status Status Bytes Status Descriptions 1:?OK 01,00,04,A0 DC UNDER VOLTAGE, RQSTED ON 2: OK 01,00,00,A0?RQSTED ON

其實就是我們之前做的對有影響的電源做插拔動作。但不幸的是我們又命中了sp的一個bug,sp沒有及時識別到電源又插了回去,依然認為多個fan有故障,直接shutdown了機器。

好了,不寫了,都是淚,前后折騰了半天,還把機器搞掛了。

總結

以上是生活随笔為你收集整理的NetApp FAS2554故障灯常亮case处理过程分享的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。