如何处理ESXi Hang机
如何處理ESXi Hang機
當主機從vCenter中斷開,通常是ESXi上的hostd進程沒有正常工作,更為嚴重的情況是ESXi發(fā)生hang機,不能被遠程控制,現(xiàn)象表現(xiàn)為:
1. 不能使用vSphere Client客戶端軟件遠程連接ESXi,
2. 也不能使用SSH客戶端軟件遠程連接ESXi.
3. 使用帶外管理卡或者通過鍵盤監(jiān)視器直接連接物理服務(wù)器的控制臺,可能可以操作,可能不能操作
這種場景通常代表硬件設(shè)備有故障,重啟主機后大多數(shù)情況下可以恢復(fù)正常工作狀態(tài),但由于hang機后ESXi系統(tǒng)沒有記錄完整信息,所以給進一步判斷是哪個硬件組件發(fā)生故障帶來困難。如果使用硬件診斷工具也不一定能掃出隨機發(fā)生的硬件問題。
除了使用硬件供應(yīng)商原廠的烤機檢測工具外, 我們有沒有別的方法幫助我們隔離問題呢? 下面從操作系統(tǒng)軟件角度給出一些輔助的方法步驟。
第一步,首先需要ping ESXi主機的管理地址,確認網(wǎng)絡(luò)層面是否可以工作。注意:即使ESXi主機的管理地址不通,虛擬機也可以正常工作,只要虛擬機所使用的上聯(lián)網(wǎng)卡可以工作。
第二步,如果網(wǎng)絡(luò)是通的,可以使用vSphere Client軟件直連ESXi服務(wù)器,看看圖形界面是否可以遠程控制, 這一步也可以幫助確認hostd是否可以正常工作。
第三步,如果網(wǎng)絡(luò)是通的,可以使用ssh連接ESXi主機,看看是否可以在命令行遠程控制。(前提是SSH服務(wù)已經(jīng)提前打開運行)
如果hang機,第二步和第三步都不能工作。
第四步,因為遠程控制的途徑全部失效,我們需要打開物理服務(wù)器的控制臺窗口做進一步判斷。有兩種方法,一種是使用鍵盤和監(jiān)視器連接服務(wù)器,另一種是使用帶外管理卡連接服務(wù)器控制臺,比如iLO/iDRAC/IMM/RMM2/ILOM。連上后看看鍵盤是否可以工作。如果可以,執(zhí)行第五步;如果不可以,跳過第五步,直接執(zhí)行第六步。
第五步,使用組合鍵Alt+F12,切換DCUI×××背景界面到內(nèi)存日志輸出的黑色終端屏幕,在這里可以看見vmkernel最新的日志輸出,這些信息都直接來自vmkernel臨時保存在內(nèi)存中的事件隊列中。ESXi的syslog服務(wù)會從這里提取日志并且根據(jù)配置轉(zhuǎn)存到本地磁盤、遠程日志服務(wù)器、超級終端應(yīng)用程序等地方;如果syslog或者其后端不能工作,我們將失去日志文件,所以在按下Alt+F12后,可以對屏幕拍照獲取當時的日志消息幫助分析。
第六步,使用硬件NMI的功能主動讓ESXi主機宕機,產(chǎn)生紫屏,這樣vmkernel當時使用的內(nèi)存信息可以被保留到磁盤上, 后續(xù)我們可以分析dump文件幫助查找原因。如果虛擬機上的操作系統(tǒng)還可以訪問,建議先使用RDP關(guān)閉windows或者ssh關(guān)閉Linux,然后在讓ESXi紫屏。 硬件NMI的使用方法根據(jù)硬件廠家以及硬件型號不同而異,具體操作方法需要參考硬件設(shè)備用戶手冊。(有關(guān)硬件NMI的介紹可以參看知識庫文章編號KB#1014767)
第七步,重啟服務(wù)器,恢復(fù)工作后收集并提交vm-support日志給VMware技術(shù)支持做后續(xù)分析。同時請致電硬件廠商檢查硬件。
其他輔助措施:
1. 使用遠程日志機制避免本地磁盤故障導(dǎo)致日志缺失,參看 http://kb.vmware.com/kb/2003322
2. 使用網(wǎng)絡(luò)轉(zhuǎn)儲(netdump)保存vmkernel內(nèi)存信息避免本地vmkcore分區(qū)大小不足導(dǎo)致dump失敗, 參看 http://kb.vmware.com/kb/1032051
轉(zhuǎn)載于:https://blog.51cto.com/vmsupport/1241472
總結(jié)
以上是生活随笔為你收集整理的如何处理ESXi Hang机的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: IE6下的text-indent属性BU
- 下一篇: lt;备份gt;10月12日 内核编译与