VSAN集群关机重启流程
VSAN集群關(guān)機重啟流程
最近對一家用戶實施搬遷機房,數(shù)據(jù)中心核心業(yè)務(wù)運行在VSAN中,vCenter的版本是7.0.3.00100,ESXi的版本是6.5.0.8294253
簡單的就是一個7.0VC管理4臺6.5ESXI的VSAN,搬遷機房需要關(guān)機和重啟~
以前在公司做實驗都是直接拔電沒有進維護模式~~有過VSAN崩潰的經(jīng)歷,也有過進入維護模式關(guān)機第二天來VC虛擬機名字成亂碼了的經(jīng)歷~
所以這次打算查VMware官網(wǎng)文檔來操作關(guān)閉和重啟VSAN~正路子
可以直接查看按照VMware鏈接來操作:
官網(wǎng)中提到 vSAN 7.0 Update 3 及更高版本可以直接提供關(guān)閉集群向?qū)?#xff0c;我對于文中的VSAN7.0U3概念很模糊!是vCenter的版本呢?還是要求的ESXi版本呢?
我個人認為是vCenter的版本更合理,我立即查看用戶的vCenter中是否有這個功能~
右鍵集群–>VSAN–>僅有上載支持包一個功能;又在集群配置中的VSAN查看–>僅有一個關(guān)閉VSAN的功能(和關(guān)閉集群不是一個類型)
隨即,我登錄了另一個客戶,VC版本7.0.3.00700,找到一個VSAN集群看看是否有關(guān)閉集群功能–>有此功能;配置里面的VSAN也有這個選項
嘗試點一下–>會有個關(guān)機預(yù)檢查,都關(guān)機了估計就可以下一步了,這里不做更多敘述了,詳細看官方文檔
重新啟動VSAN集群:打開服務(wù)器電源–>等VC起來(我理解的意思是VC會自啟動不需要登錄ESXI打開電源)–>右鍵集群重新啟動集群
要干活的地方不能自動了,只能手動了!
先關(guān)閉VSAN集群
- 詢問是否有關(guān)聯(lián)vCenter的或者主機的任務(wù)正在進行~比如備份任務(wù)正在做快照等,要先都確認關(guān)閉
- 檢查 vSAN 運行狀況服務(wù)以確認集群處于正常運行狀態(tài)。(用skyline檢查一下,我這里提示兩個告警,一個是磁盤存儲空間告警,一個是假設(shè)主機失敗告警,其實都是存儲空間不足的問題,跟關(guān)機沒關(guān)系),
- 檢查集群—>監(jiān)控—>VSAN—>重新同步對象,確保當前沒有重新同步任何 vSAN 組件
- 檢查集群—>監(jiān)控—>VSAN—>虛擬對象,如果有單副本的虛擬機建議先改成雙副本,有過一次系統(tǒng)故障,重建系統(tǒng)后單副本的虛擬機變成了不可訪問對象,數(shù)據(jù)找不回來了
- 如果 vSAN 集群中未托管 vCenter Server,請關(guān)閉該集群中運行的所有虛擬機的電源。如果 vSAN 集群中托管 vCenter Server,請勿關(guān)閉 vCenter Server 虛擬機的電源。(我這里是vCenter托管在VSAN里面的,除了VC都關(guān)機)
- 單擊配置選項卡,然后關(guān)閉 HA和DRS。因此,集群不會將主機關(guān)機事件登記為故障。(關(guān)閉HA還是要得,要不可能會因為服務(wù)器關(guān)的滿了亂糟糟的,重啟后虛擬機都到一個服務(wù)器上了)
- 對于 vSphere 7.0 U1 和更高版本,請啟用 vCLS 撤回模式。有關(guān)詳細信息,請參見相應(yīng)的 VMware 知識庫文章。(突然想起來以前考VMware證書時候有一題是關(guān)VSAN前要做的操作,選項里面有vCLS撤回,使用config.vcls.clusters.domain-c<number>.enabled,值先填False,就可以看到vCenter任務(wù)里面刪除虛擬機)
- 登錄四臺SSH確保沒問題,關(guān)機vCenter
- 四臺服務(wù)器登錄SSHesxcli system maintenanceMode set -e true -m noAction(不遷移虛擬機和不遷移數(shù)據(jù),要是單臺維護才選數(shù)據(jù)可訪問)
- 然后四臺服務(wù)器poweroff全部關(guān)機(全部進入維護模式以后看到虛擬機變成未知等狀態(tài)不要緊)
開啟VSAN集群
- 等交換機都正常起來了再打開四臺服務(wù)器電源
- web頁面登錄四臺服務(wù)器,選擇退出維護模式(SSH也可以esxcli system maintenanceMode set -e false)
- 找到開啟vCenter虛擬機(都退出維護后不要著急,一會就能看到虛擬機都提示正常了)
- 通過skyline健康檢查確認vSAN狀態(tài)
- 找到config.vcls.clusters.domain-c<number>.enabled的值改為True(看到新建了vCLS虛擬機)
- 開機其他虛擬機(不要大批量的開機,小心開機風(fēng)暴,慢慢來)
- 打開HA和DRS(確保任務(wù)完成再下一項任務(wù))
如果出現(xiàn)不可用查看VMware文檔
同時重新引導(dǎo)或關(guān)閉 vSAN 群集中的所有主機可能會導(dǎo)致在一次故障后出現(xiàn)數(shù)據(jù)不可用的情況 (60424)
在 vSAN 集群中執(zhí)行集群級別維護時,如果使用“無操作維護模式”功能并隨后重新引導(dǎo),若集群啟動期間出現(xiàn)故障或主機進入 vSAN 取消配置狀態(tài),可能會導(dǎo)致數(shù)據(jù)在維護后不可用。
備注:
維護模式選項“無操作”是指:6.7, 6.0: “無數(shù)據(jù)遷移”,6.5:“無數(shù)據(jù)撤出”
問題/故障示例:
- 磁盤故障
- 任何其他硬件問題
- 由于網(wǎng)絡(luò)問題等情況導(dǎo)致主機無法加入集群
在以下情況下,不存在問題:
- 使用“無操作”以外的任何其他維護模式
- 通過執(zhí)行“滾動重新引導(dǎo)”重新引導(dǎo) vSAN 主機(將 vSAN 主機置于維護模式后)
注意:
在通過這種方式進行集群范圍的維護之前,應(yīng)正常關(guān)閉所有虛擬機的電源,包括 vCenter Server。
如果 vCenter Server 在 vSAN 集群外運行,且無法關(guān)閉電源,則請禁用 vSphere HA 并針對 vSAN 集群將 vSphere DRS 設(shè)置為手動。
我理解的意思是不撤出數(shù)據(jù)一定要關(guān)閉所有的虛擬機包括vCenter,曾經(jīng)有一次是在vCenter開機情況下挨個主機進入維護模式最后再關(guān)閉vCenter再維護最后一臺服務(wù)器導(dǎo)致了重啟后vCenter虛擬機崩了變成了不可用狀態(tài)!
總結(jié)
以上是生活随笔為你收集整理的VSAN集群关机重启流程的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: python中用py2exe打包可执行文
- 下一篇: DR. TRADELOVE 或我如何不再